طريقة محرّك بحث Google في تفسير مواصفات ملف robots.txt

تتوافق برامج زحف Google المبرمَجة مع بروتوكول استبعاد برامج الروبوت (REP). وهذا يعني أنّه قبل الزحف إلى موقع إلكتروني، تنزّل برامج زحف Google ملف robots.txt الخاص بالموقع الإلكتروني وتحلّله لاستخلاص معلومات حول أجزاء الموقع الإلكتروني التي يمكن الزحف إليها. ولا ينطبق بروتوكول REP على برامج زحف Google التي يتحكم فيها المستخدمون (مثل الاشتراكات في الخلاصات) أو برامج الزحف المستخدَمة لزيادة أمان المستخدمين (مثل تحليل البرامج الضارة).

توضّح هذه الصفحة طريقة تفسير Google لبروتوكول REP. وفي ما يتعلق بالمعايير الأصلية، يمكنك مراجعة معيار RFC 9309.

ما هو ملف robots.txt؟

إذا كنت لا تريد أن تصل برامج الزحف إلى أقسام محدّدة من موقعك الإلكتروني، يمكنك إنشاء ملف robots.txt يتضمن القواعد المناسبة. وملف robots.txt هو ملف نصي يتضمّن قواعد تحدّد برامج الزحف التي يمكنها الوصول إلى موقعك الإلكتروني والأجزاء التي يُسمح لها بالوصول إليها. على سبيل المثال، قد يظهر ملف robots.txt الخاص بموقع example.com الإلكتروني على النحو التالي:

# This robots.txt file controls crawling of URLs under https://example.com.
# All crawlers are disallowed to crawl files in the "includes" directory, such
# as .css, .js, but Google needs them for rendering, so Googlebot is allowed
# to crawl them.
User-agent: *
Disallow: /includes/

User-agent: Googlebot
Allow: /includes/

Sitemap: https://example.com/sitemap.xml

إذا كنت مبتدئًا في مجال استخدام ملف robots.txt، ابدأ بقراءة القسم مقدمة عن ملف robots.txt. يمكنك أيضًا الاطّلاع على القسم نصائح لإنشاء ملف robots.txt.

موقع الملف ونطاق الصلاحية

عليك وضع ملف robots.txt في دليل المستوى الأعلى على الموقع الإلكتروني، وباستخدام بروتوكول متوافق. يكون عنوان URL لملف robots.txt حساسًا لحالة الأحرف (على غرار عناوين URL الأخرى). والبروتوكولات المتوافقة مع "بحث Google" هي HTTP وHTTPS و"بروتوكول نقل الملفات". في البروتوكولَين HTTP وHTTPS، تجلب برامج الزحف ملف robots.txt باستخدام طلب GET غير مشروط لبروتوكول HTTP. وفي "بروتوكول نقل الملفات"، تستخدم برامج الزحف أمر RETR (RETRIEVE) عاديًا من خلال تسجيل الدخول مع إخفاء الهوية.

تجنَّب عرض نُسخ مختلفة من ملف robots.txt لبرامج زحف محتلفة (أي إخفاء الهوية)، إذ قد يشكّل ذلك عبئًا في ما يتعلّق بالصيانة أو يمنعك من تصحيح أخطاء الزحف أو يتسبّب بعواقب غير مقصودة.

لا يتم تطبيق القواعد المدرَجة في ملف robots.txt إلا على المضيف والبروتوكول ورقم المنفذ حيث تتم استضافة ملف robots.txt.

أمثلة على عناوين URL الصالحة لملف robots.txt

يتضمن الجدول التالي أمثلة على عناوين URL لملفات robots.txt ومسارات عناوين URL التي تصلح لها تلك العناوين. يتضمّن العمود الأول عنوان URL لملف robots.txt ويحتوي العمود الثاني على النطاقات التي ينطبق عليها ملف robots.txt وتلك التي لا ينطبق عليها.

أمثلة على عناوين URL لملف robots.txt
`https://example.com/robots.txt`	يشير هذا العنوان إلى الحالة العامة. وهو غير صالح للنطاقات الفرعية أو البروتوكولات أو أرقام المنافذ الأخرى. في المقابل، هذا العنوان صالح لجميع الملفات في جميع الأدلة الفرعية على المضيف والبروتوكول ورقم المنفذ نفسه. صالح لما يلي: `https://example.com/` `https://example.com/folder/file` غير صالح لما يلي: `https://other.example.com/` `http://example.com/` `https://example.com:8181/`
`https://www.example.com/robots.txt`	يشير هذا العنوان إلى ملف robots.txt على أحد النطاقات الفرعية وهو صالح فقط لذلك النطاق الفرعي. صالح لما يلي: `https://www.example.com/` غير صالح لما يلي: `https://example.com/` `https://shop.www.example.com/` `https://www.shop.example.com/`
`https://example.com/folder/robots.txt`	يشير هذا العنوان إلى ملف robots.txt غير صالح. لا تتحقق برامج الزحف من ملفات robots.txt في الأدلة الفرعية.
`https://www.exämple.com/robots.txt`	تُعادل أسماء النطاقات المدوّلة (IDN) نُسخ punycode التابعة لها. راجِع أيضًا RFC 3492. صالح لما يلي: `https://www.exämple.com/` `https://xn--exmple-cua.com/` غير صالح لما يلي: `https://www.example.com/`
`ftp://example.com/robots.txt`	صالح لما يلي: `ftp://example.com/` غير صالح لما يلي: `https://example.com/`
`https://212.96.82.21/robots.txt`	إنّ ملف robots.txt الذي يتم فيه إدراج عنوان IP كاسم المضيف يكون صالحًا فقط للزحف إلى عنوان IP هذا على أنّه اسم المضيف. ولا يكون هذا الملف صالحًا تلقائيًا لجميع المواقع الإلكترونية المستضافة على عنوان IP هذا (علمًا أنّه من الممكن مشاركة ملف robots.txt، إلا أنّه سيكون متوفرًا أيضًا ضمن اسم المضيف المشترك في هذه الحالة). صالح لما يلي: `https://212.96.82.21/` غير صالح لما يلي: `https://example.com/` (حتى لو كان مستضافًا على `212.96.82.21`)
`https://example.com:443/robots.txt`	تكون أرقام المنافذ العادية (`80` لبروتوكول HTTP و`443` لبروتوكول HTTPS و`21` لبروتوكول نقل الملفات) معادِلة لأسماء المضيف التلقائية التابعة لها. صالح لما يلي: `https://example.com:443/` `https://example.com/` غير صالح لما يلي:`https://example.com:444/`
`https://example.com:8181/robots.txt`	تكون ملفات robots.txt على أرقام المنافذ غير العادية صالحة فقط للمحتوى المتوفر من خلال أرقام المنافذ هذه. صالح لما يلي: `https://example.com:8181/` غير صالح لما يلي: `https://example.com/`

التعامل مع الأخطاء ورموز حالة HTTP

عند طلب ملف robots.txt، يؤثر رمز حالة HTTP لاستجابة الخادم في طريقة استخدام برامج زحف Google لملف robots.txt. ويلخّص الجدول التالي طريقة تعامُل Googlebot مع ملفات robots.txt لرموز حالة HTTP المختلفة.

التعامل مع الأخطاء ورموز حالة HTTP
`2xx (success)`	تطلب رموز حالة HTTP التي تشير إلى نجاح العملية من برامج زحف Google معالجة ملف robots.txt كما تم توفيره من الخادم.
`3xx (redirection)`	يتّبع محرّك بحث Google ما لا يقل عن خمس قفزات إعادة توجيه على النحو المحدّد في RFC 1945، وبعد ذلك يتوقف ويعتبر العملية على أنّها `404` لملف robots.txt. وينطبق هذا الأمر أيضًا على أي عناوين URL ممنوعة في سلسلة إعادة التوجيه، لأنّ الزاحف لم يتمكّن من جلب القواعد بسبب عمليات إعادة التوجيه. لا يتّبع Google عمليات إعادة التوجيه المنطقية في ملفات robots.txt (عمليات إعادة التوجيه المستندة إلى الإطارات أو JavaScript أو تعديل بيانات التعريف).
`4xx (client errors)`	تتعامل برامج زحف Google مع جميع أخطاء `4xx`، باستثناء `429`، كما لو أنّها لم تعثر على ملف robots.txt صالح. ويعني ذلك أنّ Google يفترض أنّه لم يتم فرض قيود على عملية الزحف. لا تستخدم رمزَي الحالة `401` و`403` للحدّ من معدّل الزحف. لا تؤثر رموز الحالة `4xx`، باستثناء `429`، في معدّل الزحف. تعرَّف على كيفية الحدّ من معدّل الزحف.
`5xx (server errors)`	إذا عثر محرّك بحث Google على ملف robots.txt ولكن لم يتمكن من جلبه، سيتّبع Google السلوك التالي: خلال أول 12 ساعة، سيتوقف Google عن الزحف إلى الموقع الإلكتروني ولكنه سيواصل محاولة جلب ملف robots.txt. إذا لم يتمكّن محرّك بحث Google من جلب نسخة جديدة، سيستخدم آخر نسخة خالية من الأخطاء خلال الأيام الـ 30 المقبلة، وسيواصل محاولة جلب نسخة جديدة. يؤدي خطأ `503 (service unavailable)` إلى إعادة المحاولة بشكل متكرّر إلى حدّ ما. إذا لم تتوفّر نسخة مخزّنة مؤقتًا، يفترض Google أنّه ما من قيود على عملية الزحف. إذا استمرت الأخطاء بعد 30 يومًا: إذا كان الموقع الإلكتروني متاحًا بشكل عام لمحرّك بحث Google، سيعمل Google كما لو أنّ ملف robots.txt غير متوفّر (مع مواصلة البحث عن نسخة جديدة). وإذا كان الموقع الإلكتروني يتضمن مشاكل مرتبطة بالتوفّر بشكل عام، سيتوقّف Google عن الزحف إليه، مع مواصلة طلب ملف robots.txt بشكل دوري.
أخطاء أخرى	عند تعذُّر جلب ملف robots.txt بسبب حدوث مشاكل في نظام أسماء النطاقات أو في الشبكة، يتم التعامل مع هذه المشاكل على أنّها خطأ في الخادم. ومن أمثلة هذه المشاكل حالات انتهاء المهلة، والاستجابات غير الصالحة، والاتصالات التي تمت إعادة ضبطها أو مقاطعتها، وأخطاء تجزئة معلومات HTTP.

التخزين المؤقت

بشكل عام، يخزّن Google محتوى ملف robots.txt لما يصل إلى 24 ساعة، ولكن قد يخزّنه مؤقتًا لمدة أطول من ذلك في الحالات التي لا يكون من الممكن فيها إعادة تحميل النسخة المخزّنة مؤقتًا (على سبيل المثال، بسبب حالات انتهاء المهلة أو أخطاء 5xx). ويمكن مشاركة استجابة النسخة المخزّنة مؤقتًا من خلال برامج الزحف المختلفة. ومن الممكن أن يزيد Google مدة التخزين المؤقت أو يقللها استنادًا إلى عناوين HTTP التي تتضمن عنصر max-age للتحكم في ذاكرة التخزين المؤقت.

تنسيق الملف

يجب أن يكون ملف robots.txt ملفًا نصيًا عاديًا بالترميز UTF-8، ويجب فصل الأسطر باستخدام CR أو CR/LF أو LF.

يتجاهل Google الأسطر غير الصالحة في ملفات robots.txt، بما في ذلك علامة ترتيب وحدات البايت (BOM) الخاصة بيونيكود في بداية ملف robots.txt، ويستخدم الأسطر الصالحة فقط. على سبيل المثال، إذا كان المحتوى الذي تم تنزيله بتنسيق HTML بدلاً من قواعد robots.txt، سيحاول Google تحليل المحتوى واستخراج القواعد وتجاهل كل العناصر الأخرى.

وبالمثل، إذا لم يكن ترميز الأحرف لملف robots.txt بتنسيق UTF-8، قد يتجاهل Google الأحرف التي لا تشكّل جزءًا من نطاق UTF-8، ما قد يؤدي إلى عرض قواعد robots.txt غير صالحة.

يفرض Google حدًا أقصى لحجم ملف robots.txt يبلغ 500 كيبيبايت (KiB). ويتم تجاهل المحتوى الذي يتخطّى الحد الأقصى لحجم الملف. ويمكنك خفض حجم ملف robots.txt من خلال دمج القواعد التي قد تؤدي إلى زيادة حجم ملف robots.txt. على سبيل المثال، ضَع المواد المستبعدة في دليل منفصل.

البنية

تتألف سطور robots.txt الصالحة من حقل وعلامة النقطتين وقيمة. وتكون المسافات اختيارية (ولكن يُنصح باستخدامها لتحسين إمكانية القراءة). يتم تجاهل المسافة البيضاء في بداية السطر ونهايته. لتضمين التعليقات، اكتب قبلها الحرف #. وتجدر الإشارة إلى أنّه سيتم تجاهل جميع الأحرف التي تلي الحرف #. التنسيق العام هو <field>:<value><#optional-comment>.

يتيح محرّك بحث Google الحقول التالية (أما الحقول الأخرى، مثل crawl-delay، فهي غير متاحة):

‫user-agent: يحدّد الزاحف الذي تنطبق عليه القواعد.
allow: مسار عنوان URL يمكن الزحف إليه
disallow: مسار عنوان URL لا يُسمح بالزحف إليه
sitemap: عنوان URL الكامل لخريطة الموقع

يُطلَق على حقلَي allow وdisallow أيضًا اسم القواعد (التي تُعرف أيضًا بالتوجيهات). ويتم تحديد هذه القواعد في شكل rule: [path] حيث يكون [path] اختياريًا. وحسب الإعدادات التلقائية، لا تُفرَض أي قيود على برامج الزحف المحددة في ما يتعلق بعملية الزحف. وتتجاهل برامج الزحف القواعد التي لا تحتوي على [path].

ترتبط قيمة [path]، في حال تحديدها، بجذر الموقع الإلكتروني الذي تم جلب ملف robots.txt منه (باستخدام البروتوكول ورقم المنفذ والمضيف وأسماء النطاقات نفسها). يجب أن تبدأ قيمة المسار بـ / لتحديد الجذر، وتكون القيمة حساسة لحالة الأحرف. اطّلِع على مزيد من المعلومات حول مطابقة عنوان URL استنادًا إلى قيم المسارات.

`user-agent`

يحدّد سطر user-agent الزاحف التي تنطبق عليه القواعد. راجِع برامج الزحف من Google وسلاسل وكيل المستخدم للحصول على قائمة شاملة بسلاسل وكيل المستخدم التي يمكنك استخدامها في ملف robots.txt.

قيمة السطر user-agent غير حساسة لحالة الأحرف.

`disallow`

تحدّد القاعدة disallow المسارات التي يجب ألا تصل إليها برامج الزحف المحدّدة في سطر user-agent الذي يتم جمعه مع القاعدة disallow. وتتجاهل برامج الزحف القاعدة التي لا تتضمن مسارًا.

يتعذّر على Google فهرسة محتوى الصفحات غير المسموح بالزحف إليها، ولكنّه قد يواصل فهرسة عنوان URL وعرضه في نتائج البحث بدون مقتطف. تعرَّف على طريقة حظر الفهرسة.

قيمة القاعدة disallow حساسة لحالة الأحرف.

الاستخدام:

disallow: [path]

`allow`

تحدّد القاعدة allow المسارات التي يمكن لبرامج الزحف المحدّدة الوصول إليها. وعند عدم تحديد أي مسار، يتم تجاهل القاعدة.

قيمة القاعدة allow حساسة لحالة الأحرف.

الاستخدام:

allow: [path]

`sitemap`

يتيح Google وBing وغيرهما من محرّكات البحث الرئيسية استخدام الحقل sitemap في ملف robots.txt على النحو المحدّد في sitemaps.org.

قيمة الحقل sitemap حساسة لحالة الأحرف.

الاستخدام:

sitemap: [absoluteURL]

يشير السطر [absoluteURL] إلى مكان خريطة الموقع أو ملف فهرسة خرائط الموقع. ويجب أن يكون ذلك عنوان URL مؤهّلاً بالكامل، بما في ذلك البروتوكول والمضيف، وليس ضروريًا أن يكون بترميز عنوان URL. ولا يُشترط أن يكون عنوان URL على مضيف ملف robots.txt نفسه. ويمكنك تحديد عدّة حقول sitemap. ولا يكون حقل ملف خريطة الموقع مرتبطًا بأي وكيل مستخدم محدّد، ويمكن لجميع برامج الزحف تتبُّعه شرط ألا يكون الزحف إليه ممنوعًا.

مثلاً:

user-agent: otherbot
disallow: /kale

sitemap: https://example.com/sitemap.xml
sitemap: https://cdn.example.org/other-sitemap.xml
sitemap: https://ja.example.org/テスト-サイトマップ.xml

تجميع الأسطر والقواعد

يمكنك تجميع القواعد التي تنطبق على عدّة برامج وكيل المستخدم من خلال تكرار أسطر user-agent لكل زاحف.

مثلاً:

user-agent: a
disallow: /c

user-agent: b
disallow: /d

user-agent: e
user-agent: f
disallow: /g

user-agent: h

في هذا المثال، هناك أربع مجموعات مختلفة من القواعد:

مجموعة لوكيل المستخدم "a"
مجموعة لوكيل المستخدم "b"
مجموعة لبرنامجَي وكيل المستخدم "e" و"f".
مجموعة لوكيل المستخدم "h"

للحصول على الوصف الفني للمجموعة، راجِع القسم 2.1 من REP.

ترتيب الأسبقية لوكلاء المستخدم

هناك مجموعة واحدة فقط صالحة لبرنامج زحف محدّد. تحدّد برامج الزحف من Google مجموعة القواعد الصحيحة عن طريق البحث في ملف robots.txt عن المجموعة التي تتضمن وكيل المستخدم الأكثر تحديدًا الذي يطابق وكيل مستخدم الزاحف. ويتم تجاهل المجموعات الأخرى. ويتم تجاهل جميع النصوص غير المطابقة (على سبيل المثال، googlebot/1.2 وgooglebot* يعادلان معًا googlebot). ولا يكون لترتيب المجموعات ضمن ملف robots.txt أي أهمّية.

إذا تم تحديد أكثر من مجموعة واحدة لوكيل مستخدم معيّن، يتم داخليًا دمج جميع القواعد من المجموعات التي تنطبق على وكيل المستخدم المحدّد في مجموعة واحدة. ولا يتم دمج المجموعات المحدّدة لوكيل المستخدم والمجموعات العامة (*).

أمثلة

مطابقة حقول `user-agent`

user-agent: googlebot-news
(group 1)

user-agent: *
(group 2)

user-agent: googlebot
(group 3)

نذكر في ما يلي طريقة اختيار برامج الزحف للمجموعة ذات الصلة:

المجموعة المتبوعة حسب برنامج الزحف
أخبار Googlebot	يتّبع `googlebot-news` المجموعة 1، لأن المجموعة 1 هي الأكثر تحديدًا.
‫Googlebot (ويب)	يتّبع `googlebot` المجموعة 3.
Googlebot Storebot	يتّبع `Storebot-Google` المجموعة 2، إذ لا تتوفر مجموعة `Storebot-Google` محددة.
‫Googlebot للأخبار (عند الزحف إلى الصور)	عند الزحف إلى الصور، يتّبع `googlebot-news` المجموعة 1. لا يزحف `googlebot-news` إلى الصور في "صور بحث Google"، لذا فهو يتّبع المجموعة 1 فقط.
‫Otherbot (الويب)	تتّبع برامج زحف Google الأخرى المجموعة 2.
‫Otherbot (الأخبار)	هي برامج زحف أخرى من Google تزحف إلى محتوى الأخبار، ولكن لا يتم تحديدها باعتبارها `googlebot-news` يتّبع المجموعة 2. وحتى في حال توفُّر إدخال لبرنامج زحف ذي صلة، لا يكون صالحًا إلا إذا كان مطابقًا بشكل محدّد.

تجميع القواعد

إذا كانت هناك عدّة مجموعات في ملف robots.txt ذات صلة بوكيل مستخدم معيّن، ستدمج برامج زحف Google المجموعات داخليًا. مثلاً:

user-agent: googlebot-news
disallow: /fish

user-agent: *
disallow: /carrots

user-agent: googlebot-news
disallow: /shrimp

تجمّع برامج الزحف القواعد داخليًا استنادًا إلى وكيل المستخدم، على سبيل المثال:

user-agent: googlebot-news
disallow: /fish
disallow: /shrimp

user-agent: *
disallow: /carrots

يتجاهل محلّل ملف robots.txt القواعد الأخرى بخلاف allow وdisallow وuser-agent. وهذا يعني أنّه يتم التعامل مع مقتطف robots.txt التالي باعتباره مجموعة واحدة، وبالتالي يتأثّر كل من user-agent a وb بالقاعدة disallow: /:

user-agent: a
sitemap: https://example.com/sitemap.xml

user-agent: b
disallow: /

عندما تعالج برامج الزحف قواعد robots.txt، تتجاهل السطر sitemap. على سبيل المثال، بهذه الطريقة تفهم برامج الزحف مقتطف robots.txt السابق:

user-agent: a
user-agent: b
disallow: /

مطابقة عنوان URL على أساس قيم المسارات

يستخدم Google قيمة المسار في القاعدتَين allow وdisallow كأساس لتحديد ما إذا كانت قاعدة ما تنطبق على عنوان URL معيّن في أحد المواقع الإلكترونية. ويعمل ذلك من خلال مقارنة القاعدة بمكوّن المسار لعنوان URL الذي يحاول الزاحف جلبه. ويمكن تضمين حروف ASCII التي ليست 7 بت في أحد المسارات كأحرف UTF-8 أو كأحرف UTF-8 مرمّزة تم الخروج منها باستخدام علامة النسبة المئوية وفقًا للقواعد الواردة في RFC 3986.

يتيح Google وBing وغيرهما من محرّكات البحث الرئيسية استخدام شكل محدود من أحرف البدل لقيم المسار. وأحرف البدل المسموح بها هي:

*: يحدّد 0 أو أكثر من حالات أي حرف صالح.
يحدّد $ نهاية عنوان URL.

يعرض الجدول التالي كيفية تأثير أحرف البدل المختلفة في التحليل:

مثال على مطابقات المسارات
`/`	يطابق الجذر وأي عنوان URL بمستوى أدنى.
`/*`	يعادل `/`. ويتم تجاهل حرف البدل اللاحق.
`/$`	يطابق الجذر فقط. يتم السماح بالزحف إلى أي عنوان URL بمستوى أدنى.
`/fish`	يطابق أي مسار يبدأ بـ `/fish`. يُرجى العِلم بأن المطابقة حسّاسة لحالة الأحرف. يطابق: `/fish` `/fish.html` `/fish/salmon.html` `/fishheads` `/fishheads/yummy.html` `/fish.php?id=anything` لا يطابق: `/Fish.asp` `/catfish` `/?id=fish` `/desert/fish`
`/fish*`	هذا الرمز مكافئ للرمز `/fish`. ويتم تجاهل حرف البدل اللاحق. يطابق: `/fish` `/fish.html` `/fish/salmon.html` `/fishheads` `/fishheads/yummy.html` `/fish.php?id=anything` لا يطابق: `/Fish.asp` `/catfish` `/?id=fish` `/desert/fish`
`/fish/`	يطابق أي عنصر في المجلد `/fish/`. يطابق: `/fish/` `/fish/?id=anything` `/fish/salmon.htm` لا يطابق: `/fish` `/fish.html` `/animals/fish/` `/Fish/Salmon.asp`
`/*.php`	يطابق أي مسار يحتوي على `.php`. يطابق: `/index.php` `/filename.php` `/folder/filename.php` `/folder/filename.php?parameters` `/folder/any.php.file.html` `/filename.php/` لا يطابق: `/`/ (حتى لو كان مرتبطًا بملف ‎/index.php) `/windows.PHP`
`/*.php$`	يطابق أي مسار ينتهي بـ `.php`. يطابق: `/filename.php` `/folder/filename.php` لا يطابق: `/filename.php?parameters` `/filename.php/` `/filename.php5` `/windows.PHP`
`/fish*.php`	يطابق أي مسار يحتوي على `/fish` و`.php` بهذا الترتيب. يطابق: `/fish.php` `/fishheads/catfish.php?parameters` لا يطابق: `/Fish.PHP`

ترتيب الأسبقية للقواعد

عند مطابقة قواعد robots.txt مع عناوين URL، تستخدم برامج الزحف القاعدة الأكثر تحديدًا استنادًا إلى طول مسارها. وفي حال تعارُض القواعد، بما في ذلك القواعد التي تتضمّن أحرف البدل، يستخدم Google القاعدة الأقل تقييدًا.

توضّح الأمثلة التالية القاعدة التي ستطبقها برامج زحف Google على عنوان URL معيّن.

أمثلة على الحالات
`https://example.com/page`	allow: /p disallow: / القاعدة المطبَّقة: `allow: /p` لأنّها أكثر تحديدًا.
`https://example.com/folder/page`	allow: /folder disallow: /folder القاعدة المطبَّقة: `allow: /folder`، لأنّه في حال تعارُض القواعد، يستخدم Google القاعدة الأقل تقييدًا.
`https://example.com/page.htm`	allow: /page disallow: /.htm القاعدة المطبَّقة: `disallow: /.htm`، لأنّ مسار القاعدة أطول ويطابق المزيد من الأحرف في عنوان URL، لذا هذه القاعدة هي أكثر تحديدًا.
`https://example.com/page.php5`	allow: /page disallow: /.ph القاعدة المطبَّقة*: `allow: /page`، لأنّه في حال تعارُض القواعد، يستخدم Google القاعدة الأقل تقييدًا.
`https://example.com/`	allow: /$ disallow: / القاعدة المطبَّقة: `allow: /$` لأنّها أكثر تحديدًا.
`https://example.com/page.htm`	allow: /$ disallow: / القاعدة المطبَّقة: `disallow: /`، لأنّ القاعدة `allow` لا تنطبق إلا على عنوان URL الجذر.

طريقة محرّك بحث Google في تفسير مواصفات ملف robots.txt

ما هو ملف robots.txt؟

موقع الملف ونطاق الصلاحية

أمثلة على عناوين URL الصالحة لملف robots.txt

التعامل مع الأخطاء ورموز حالة HTTP

التخزين المؤقت

تنسيق الملف

البنية

user-agent

disallow

allow

sitemap

تجميع الأسطر والقواعد

ترتيب الأسبقية لوكلاء المستخدم

أمثلة

مطابقة حقول user-agent

تجميع القواعد

مطابقة عنوان URL على أساس قيم المسارات

ترتيب الأسبقية للقواعد

`user-agent`

`disallow`

`allow`

`sitemap`

مطابقة حقول `user-agent`