معلومات عن ملف robots.txt

يحدّد ملف robots.txt عناوين URL التي يمكن لبرامج الزحف التابعة لمحركات البحث الوصول إليها على موقعك الإلكتروني. وغالبًا ما تُستخدم هذه المعلومات لتجنّب تحميل عبء زائد على موقعك الإلكتروني من خلال طلبات الزحف، وهي ليست آلية لإخفاء صفحة ويب من نتائج البحث على Google. أمّا إذا أردت إخفاء صفحة ويب من نتائج البحث على Google، فعليك حظر الفهرسة باستخدام علامة noindex أو حماية الصفحة بكلمة مرور.

ما الغرض من استخدام ملف robots.txt؟

يتم استخدام ملف robots.txt بشكل أساسي لإدارة عدد زيارات الزاحف إلى موقعك الإلكتروني، ويُستخدم عادةً لإخفاء ملف من نتائج البحث على Google، حسب نوع الملف:

تأثير robots.txt في مختلف أنواع الملفات
صفحة ويب

يمكنك استخدام ملف robots.txt لصفحات الويب (بتنسيق HTML أو PDF أو تنسيق آخر ليس تنسيق وسائط ويمكن أن يقرأه محرّك بحث Google), لإدارة حركة الزحف إذا كنت تعتقد أنّه سيتم تحميل عبء زائد على الخادم من خلال الطلبات الواردة من زاحف Google، أو لتجنُّب الزحف إلى صفحات غير مهمة أو متشابهة على موقعك الإلكتروني.

إذا تم حظر صفحة الويب باستخدام ملف robots.txt، قد يستمر عنوان URL في الظهور في نتائج البحث، ولكن نتيجة البحث لن تتضمّن وصفًا. وسيتم استبعاد ملفات الصور والفيديو وملفات PDF والملفات الأخرى التي ليست بتنسيق HTML من الزحف أيضًا، إلا إذا تمت الإحالة إليها عن طريق صفحات أخرى يُسمح بالزحف إليها. إذا ظهرت لك نتيجة البحث هذه لصفحتك وأردت إصلاحها، يمكنك إزالة مُدخل robots.txt الذي يحظر الصفحة. أما إذا أردت إخفاء الصفحة تمامًا من "بحث Google‏"، فيمكنك استخدام طريقة أخرى.

ملف وسائط

يمكنك استخدام ملف robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج "بحث Google‏". ولن يمنع ذلك الصفحات الأخرى أو المستخدمين الآخرين من إضافة روابط تؤدي إلى ملف الصور أو الفيديو أو الصوت الخاص بك.

ملف موارد يمكنك استخدام ملف robots.txt لحظر ملفات الموارد، مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أنّ الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بعدم ظهور هذه الملفات فيها. ولا تحظر هذه الموارد إذا كان عدم توفّرها يجعل من الصعب على زاحف Google فهم محتوى الصفحة، وإلا لن يتمكن محرّك بحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

معرفة حدود طريقة الحظر باستخدام ملف robots.txt

قبل إنشاء أو تعديل ملف robots.txt، عليك معرفة حدود طريقة حظر عناوين URL هذه. واستنادًا إلى أهدافك وحالتك، قد تحتاج إلى استخدام آليات أخرى لضمان عدم إمكانية العثور على عناوين URL الخاصة بموقعك الإلكتروني على الويب.

  • قد لا تتوافق قواعد ملف robots.txt مع بعض محرّكات البحث.
    ولا يمكن للتعليمات في ملفات robots.txt فرض سلوك محدد على الزاحف إلى موقعك الإلكتروني، لأنّ الزاحف هو من يتّخذ قرار اتّباع هذه التعليمات أم لا. وعلمًا أنّ Googlebot وبرامج زحف الويب الأخرى الحسنة السمعة تتّبع التعليمات الواردة في ملف robots.txt، قد لا تمتثل برامج الزحف الأخرى لها. وبالتالي، إذا أردت حماية المعلومات من برامج زحف الويب، ننصحك باستخدام طرق حظر أخرى مثل حماية الملفات الخاصة على الخادم بكلمة مرور.
  • يفسّر كل زاحف البنية بطريقة مختلفة.
    إنّ برامج زحف الويب الحسنة السمعة تتّبع القواعد الواردة في ملف robots.txt، إلا أنّ كل زاحف يفسّر القواعد بشكل مختلف. لذا عليك معرفة البنية الصحيحة للتعامل مع مختلف برامج زحف الويب، لأن بعض هذه البرامج قد لا يتمكن من فهم إرشادات معينة.
  • سيظل بالإمكان فهرسة صفحة تم حظرها باستخدام ملف robot.txt إذا تمت إضافة رابط يؤدي إليها في مواقع إلكترونية أخرى.
    ومع أنّ محرّك بحث Google لن يزحف إلى المحتوى الذي تم حظره باستخدام ملف robots.txt أو يفهرسه، قد نعثر على عنوان URL غير مسموح بالوصول إليه ونفهرسه إذا تمت إضافة روابط تؤدي إليه في أماكن أخرى على الويب. ونتيجة لذلك، يمكن أن يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل علني، مثل نص الرابط في الروابط المؤدية إلى الصفحة، وذلك في نتائج "بحث Google‏". لمنع ظهور عنوان URL في نتائج "بحث Google‏" على نحو سليم، يجب حماية الملفات على الخادم باستخدام كلمة مرور، أو استخدام العلامة أو عنوان الاستجابة ‎noindex meta، أو إزالة الصفحة تمامًا.

إنشاء ملف robots.txt أو تعديله

إذا تبيّن لك أنّك بحاجة إلى ملف robots.txt، تعرَّف على كيفية إنشاء ملف robots.txt. أو إذا سبق أن أنشأت ملف robots.txt، تعرَّف على كيفية تعديله.

هل يهمّك معرفة المزيد من المعلومات؟ يمكنك الاطّلاع على المراجع التالية: