تحديد مواصفات "بروتوكول استبعاد برامج الروبوت"

الاثنين 1 تموز (يوليو) 2019

على مدار 25 عامًا، شكّل "بروتوكول استبعاد برامج الروبوت (REP)" أحد أهمّ مكوّنات شبكة الويب. يتيح هذا المعيار لمالكي المواقع الإلكترونية إمكانية استبعاد البرامج المبرمَجة، مثل برامج الزحف إلى الويب لمنعها بشكل كامل أو جزئي من الوصول إلى تلك المواقع.

في عام 1994، وضع مارتن كوستر (أحد مشرفي المواقع) المعيار الأوّلي لهذا البروتوكول بعد أن لاحظ أنّ معدّل الزحف إلى موقعه الإلكتروني كبير جدًا. وقد تلقّى مساعدة من مشرفي مواقع آخرين حتى ظهر بروتوكول REP واستخدمته محرّكات البحث لمساعدة مالكي المواقع الإلكترونية في إدارة الموارد الخاصة بخوادمهم بشكل أسهل.

يُرجى العِلم بأنّ هذا البروتوكول لم يتحوّل إلى معيار رسمي للإنترنت، ما يعني أنّ تفسير مطوّري البرامج للبروتوكول تغيّر إلى حد ما بمرور الوقت. منذ إنشاء هذا البروتوكول، لم يتم تحديثه كي يشمل كل المتطلبات الحالية. وهذا بدوره يفرض على مالكي المواقع الإلكترونية تحديات كبيرة، لأنّ المعيار المبهَم في حد ذاته جعل من كتابة القواعد على نحو سليم مهمة معقَّدة.

لقد سعينا إلى مساعدة مالكي المواقع الإلكتروني ومطوّري البرامج في توفير تجارب رائعة على الإنترنت بدلاً من القلق بشأن كيفية التحكم في برامج الزحف إلى المواقع الإلكترونية. لذلك، تعاونّا مع مشرفي المواقع، بما أنّهم مؤسسو البروتوكول الأساسيون، ومع المسؤولين عن محرّكات البحث الأخرى ووثّقنا طريقة استخدام بروتوكول REP على شبكة الإنترنت الحديثة وأرسلنا هذا البروتوكول إلى مجموعة مهندسي شبكة الإنترنت (IETF).

إنّ بروتوكول REP المقترَح هو نتاج ما يزيد عن 20 عامًا من الخبرة في الاعتماد على قواعد robots.txt المتّبَعة على Googlebot وغيره من برامج الزحف البارزة، إضافةً إلى نصف مليار موقع إلكتروني يعتمد على البروتوكول نفسه. وقد ساهمت أدوات التحكم الدقيق هذه في تمكين الناشرين من اختيار المحتوى الذي يمكن الزحف إليه على مواقعهم والذي يمكن عرضه للمستخدمين المهتمين به. لا يتعارض هذا البروتوكول مع القواعد الموضوعة منذ عام 1994، بل يحدّد في الأساس جميع السيناريوهات غير الواضحة في التحليل والمطابقة على robots.txt، كما يوسِّع من نطاق هذه السيناريوهات لتشمل شبكة الإنترنت الحديثة. وفي ما يلي نذكر بعض النقاط المهمة:

  1. يمكن لأي بروتوكول نقل يستند إلى معرّف موارد منتظم (URI) أن يستخدم robots.txt لأنّه لم يعُد يقتصر مثلاً على بروتوكول HTTP ويمكن استخدامه أيضًا مع بروتوكول نقل الملفات (FTP) وبروتوكول التطبيقات المقيدة (CoAP).
  2. على مطوّري البرامج تحليل أوّل 500 كيبيبايت من ملف robots.txt كحد أدنى. ويضمن تحديد الحد الأقصى لحجم الملف ألا تكون عمليات الاتصال مفتوحة لوقت طويل جدًا، ما يخفّف من الإجهاد غير الضروري على الخادم.
  3. إنّ فرض حد أقصى جديد على وقت التخزين المؤقت يبلغ 24 ساعة أو قيمة توجيهية لذاكرة التخزين المؤقت إذا كانت متوفرة يمنح مالكي المواقع الإلكترونية إمكانية تعديل ملف robots.txt الخاص بهم في أي وقت، ولا تفرض برامج الزحف أحمالاً زائدة على المواقع الإلكترونية من خلال طلبات robots.txt. على سبيل المثال، في حالة بروتوكول HTTP، يمكن استخدام عناوين التحكّم في ذاكرة التخزين المؤقت لتحديد وقت التخزين المؤقت.
  4. تنص المواصفات الحالية على أنه عند حدوث إخفاق في الخادم وتعذُّر الوصول إلى ملف robots.txt كان يمكن الوصول إليه في السابق، لا يتم الزحف إلى الصفحات غير المسموح بها المعروفة لفترة زمنية معقولة.

بالإضافة إلى ذلك، حدّثنا صيغة باكوس ناور المعززة في مسودة الإنترنت لتحديد بنية ملف robots.txt بشكل أفضل، وهو أمر بالغ الأهمية للمطورين من أجل تحليل الأسطر.

يشير الاختصار RFC إلى "طلب الحصول على تعليقات"، وهو المقصود حرفيًا، فقد حمّلنا المسودة إلى مجموعة IETF للحصول على ملاحظات من المطورين المهتمين بالعناصر الأساسية للإنترنت. نعمل على منح منشئي الويب عناصر التحكم التي يحتاجون إليها لإخبارنا بكمية المعلومات التي يريدون إتاحتها لبرنامج Googlebot، وبالتالي، تكون تلك المعلومات متاحة للظهور في محرّك بحث Google، لذلك علينا التأكد من تنفيذ ذلك على نحو سليم.

يمكنك إرسال تعليقاتك أو أسئلتك أو التواصل معنا من خلال حسابنا على Twitter ومنتدى دعم مشرفي المواقع الخاص بنا، سواء على الإنترنت أم بلا إنترنت.