Googlebot

‫Googlebot هو الاسم العام لنوعَين من برامج زحف الويب من Google:

يمكنك التعرّف على النوع الفرعي لبرنامج Googlebot من خلال الاطّلاع على عنوان طلب HTTP الخاص بالسمة user-agent في الطلب، إلا أنّ كِلا نوعَي الزاحف يستجيبان للرمز المميز نفسه للمنتج (الرمز المميز لوكيل المستخدم) في ملف robots.txt، وبالتالي لا يمكنك أن تستهدف بشكل انتقائي "Googlebot للهواتف الذكية" أو "Googlebot لأجهزة الكمبيوتر المكتبي" باستخدام ملف robots.txt.

بالنسبة إلى معظم المواقع الإلكترونية، يفهرس محرّك بحث Google إصدار المحتوى المخصص للأجهزة الجوّالة بالدرجة الأولى. وبالتالي، يتم تنفيذ غالبية طلبات زحف Googlebot باستخدام الزاحف المخصص للأجهزة الجوّالة، ومجموعة قليلة من طلبات الزحف باستخدام الزاحف المخصص لأجهزة الكمبيوتر المكتبي.

كيفية وصول Googlebot إلى موقعك الإلكتروني

بالنسبة إلى معظم المواقع الإلكترونية، من المفترض ألا يزحف برنامج Googlebot إلى الموقع الإلكتروني أكثر من مرة واحدة كل بضع ثوانٍ في المتوسط، إلا أنّه من المحتمل أن يظهر المعدّل مرتفعًا بعض الشيء على مدى فترات زمنية قصيرة نتيجةً لحدوث تأخيرات.

تم تصميم Googlebot لتشغيله على الآلاف من الأجهزة في الوقت نفسه بهدف تحسين أدائه وإمكاناته مع تطوّر شبكة الويب. ولخفض استهلاك معدل نقل البيانات أيضًا، نشغّل العديد من برامج الزحف على أجهزة تقع بالقرب من المواقع الإلكترونية التي قد تزحف إليها هذه البرامج. بالتالي، قد تعرض سجلاتك الزيارات من عناوين IP متعدّدة، وجميعها باستخدام وكيل مستخدم Googlebot. وهدفنا هو الزحف إلى أكبر عدد ممكن من صفحات موقعك الإلكتروني عند كل زيارة بدون تحميل الخادم عبئًا زائدًا. وإذا كان موقعك الإلكتروني يواجه صعوبة في الاستجابة لطلبات الزحف من Google، يمكنك خفض معدّل الزحف.

يزحف Googlebot من عناوين IP تقع في الولايات المتحدة بشكل أساسي. وفي حال اكتشف Googlebot أنّ موقعًا إلكترونيًا يحظر الطلبات من الولايات المتحدة، قد يحاول الزحف من عناوين IP تقع في بلدان أخرى. إنّ القائمة بمجموعات عناوين IP التي يستخدمها حاليًا Googlebot متوفرة بتنسيق JSON.

بشكل عام، يزحف Googlebot عبر HTTP/1.1، ولكن قد يزحف عبر HTTP/2 إذا كان الموقع يتيح استخدام هذا البروتوكول. ولا يتأثر ترتيب موقعك الإلكتروني ضمن نتائج البحث بنسخة البروتوكول المستخدَمة للزحف إليه، إلا أنّ الزحف عبر HTTP/2 قد يساهم في توفير موارد الحوسبة (على سبيل المثال، وحدة المعالجة المركزية CPU وذاكرة الوصول العشوائي RAM) الخاصة بكل من الموقع الإلكتروني وGooglebot.
لإيقاف الزحف عبر HTTP/2، يمكنك أن تطلب من الخادم الذي يستضيف موقعك الإلكتروني الاستجابة برمز حالة HTTP ‏421 عندما يحاول Googlebot الزحف إلى موقعك الإلكتروني عبر HTTP/2. وإذا لم يكن ذلك قابلاً للتنفيذ، يمكنك إرسال رسالة إلى فريق برنامج Googlebot (إلا أنّ هذا الحل مؤقت).

يمكن لبرنامج Googlebot الزحف إلى أول 15 ميغابايت من ملف HTML أو ملف نصي متوافق. يتم استرجاع كل مورد تتم الإشارة إليه في ملف HTML، مثل CSS وJavaScript، بشكل منفصل ويتم تطبيق الحد المسموح به نفسه لحجم الملف على كل عملية استرجاع. بعد الزحف إلى أول 15 ميغابايت من الملف، يتوقف Googlebot عن الزحف ويأخذ فقط هذا الجزء من المحتوى في الاعتبار أثناء الفهرسة. يتم تطبيق الحد المسموح به لحجم الملف على البيانات غير المضغوطة. وقد يتم تطبيق حدود مختلفة لبرامج الزحف الأخرى من Google، مثل Googlebot للفيديوهات وGooglebot للصور.

عند الزحف من عناوين IP في الولايات المتحدة، تكون المنطقة الزمنية لبرنامج Googlebot هي توقيت المحيط الهادئ.

منع برنامج Googlebot من زيارة موقعك الإلكتروني

يستحيل تقريبًا إبقاء أحد المواقع الإلكترونية سريًا من خلال عدم نشر روابط تؤدي إليه. على سبيل المثال، عندما يتتبّع مستخدم رابطًا من موقعك الإلكتروني "السري" إلى موقع إلكتروني آخر، قد يظهر عنوان URL للموقع الإلكتروني "السري" في علامة المُحيل وقد يحفظه الموقع الإلكتروني الآخر وينشره في سجل المُحيل الخاص به.

تتوفّر خيارات متعددة لمنع Googlebot من الزحف إلى محتوى على موقعك الإلكتروني. ويجب إدراك الفرق بين منع Googlebot من الزحف إلى صفحة، ومنع Googlebot من فهرسة صفحة، ومنع وصول كلّ من برامج الزحف والمستخدمين إلى صفحة.

التحقق من أنّ مصدر الطلبات هو برنامج Googlebot

قبل أن تقرّر حظر Googlebot، يُرجى العلم بأنّه غالبًا ما تنتحل برامج زحف أخرى هوية عنوان طلب HTTP الخاص بالسمة user-agent والذي يستخدمه Googlebot. ومن المهم التحقق من أنّ الطلب الذي حدثت فيه المشكلة صادر من Google. وأفضل طريقة للتحقق من أنّ الطلب صادر من Googlebot هي استخدام بحث نظام أسماء النطاقات العكسي على عنوان IP المصدر للطلب أو مطابقة عنوان IP المصدر مع نطاقات عناوين IP التي يستخدمها Googlebot.