فهم آلية عمل Googlebot: توضيح عملية الزحف والجلب ووحدات البايت التي نعالجها

الثلاثاء 31 مارس 2026

إذا استمعت إلى الحلقة 105 من بودكاست Search Off the Record، ربما سمعت حديثنا المفصّل عن موضوع يهمّنا كثيرًا (ويهمّ خوادمنا أيضًا)، وهو آلية عمل Googlebot.

لطالما كان الاسم "Googlebot" يذكّرنا بصورة روبوت واحد لا يكلّ ولا يملّ يقرأ الإنترنت بشكل منتظم، لكنّ الواقع أكثر تعقيدًا وأكثر إثارة للاهتمام. اليوم، نريد أن نكشف عن تفاصيل بنيتنا الأساسية الخاصة بالزحف، مع التركيز بشكل خاص على ما يسبّب لنا الحيرة، أي حدود حجم البايت.

أولاً، Googlebot عبارة عن مجموعة من البرامج

لنوضّح أولاً تسمية خاطئة شائعة. في أوائل الألفية الثانية، كان لدى Google منتج واحد، وبالتالي كان لدينا زاحف واحد. وبقي الاسم "Googlebot" رائجًا، ولكن في الوقت الحالي، أصبح Googlebot مجرد مستخدم لأداة تشبه منصة زحف مركزية.

عندما يظهر لك Googlebot في سجلّات الخادم، يعني ذلك أنّك تتصفّح "بحث Google". تستخدم عشرات الخدمات الأخرى، مثل Google Shopping وGoogle AdSense وغيرها، البنية الأساسية نفسها لتوجيه طلبات الزحف، ولكن بأسماء مختلفة لبرامج الزحف، ويمكنك الاطّلاع على الأسماء الأكبر حجمًا في موقع البنية الأساسية لبرامج الزحف من Google.

ما تأثير الحدّ الأقصى البالغ 2 ميغابايات في معالجة وحدات البايت؟

هنا تصبح الأمور مربكة بعض الشيء. على كل عميل من عملاء البنية الأساسية للزاحف ضبط بعض الإعدادات الخاصة بعمليات الجلب. تشمل هذه الإعدادات سلسلة وكيل المستخدم، والرموز المميزة لوكيل المستخدم التي سيبحثون عنها في ملف robots.txt، وعدد وحدات البايت التي سيتم جلبها من عنوان URL بعينه.

يستطيع Googlebot حاليًا جلب ما يصل إلى 2 ميغابايت لأي عنوان URL فردي (باستثناء ملفات PDF). وهذا يعني أنّه يزحف إلى أول 2 ميغابايت فقط من المورد، بما في ذلك عنوان HTTP. بالنسبة إلى ملفات PDF، يبلغ الحدّ الأقصى 64 ميغابايت.

تتضمّن برامج الزحف إلى الصور والفيديوهات عادةً مجموعة كبيرة من القيم الحدّية، ويعتمد ذلك بشكل كبير على المنتج الذي يتم جلبه. على سبيل المثال، قد يكون الحدّ الأقصى لعمليات جلب الرموز المفضَّلة صغيرًا جدًا، على عكس ميزة "البحث بالصور".

بالنسبة إلى أي زاحف آخر لا يضبط حدًا أقصى، يكون الحدّ التلقائي هو 15 ميغابايت بغض النظر عن نوع المحتوى.

ما أثر ذلك في وحدات البايت التي يرسلها الخادم عبر الشبكة؟

  1. الجلب الجزئي: إذا كان حجم ملف HTML أكبر من 2 ميغابايت، لن يرفض Googlebot الصفحة، ولكن يتم إيقاف عملية الجلب عند الحدّ الأقصى البالغ 2 ميغابايت بالضبط. يُرجى العِلم أنّ الحدّ الأقصى يشمل عناوين طلبات HTTP.
  2. معالجة الجزء المقتطع: يتم نقل الجزء الذي تم تنزيله (أول 2 ميغابايت من وحدات البايت) إلى أنظمة الفهرسة و"خدمة العرض على الويب" (WRS) كما لو كان الملف كاملاً.
  3. وحدات البايت المتجاهَلة: يتم تجاهل أي وحدات بايت تظهر بعد الحدّ الأقصى البالغ 2 ميغابايت. ولا يتم جلبها أو عرضها أو فهرستها.
  4. جلب الموارد: سيتم جلب كل مورد تمت الإشارة إليه في ملف HTML (باستثناء الوسائط والخطوط وبعض الملفات غير الشائعة) من خلال خدمة WRS باستخدام Googlebot، تمامًا مثل ملف HTML الرئيسي. ويخصّ كلّ منها عدّاد بايت منفصل خاص به لكلّ عنوان URL، ولا يتم احتسابه ضمن حجم الصفحة الرئيسية.

بالنسبة إلى معظم المحتوى على الويب، تعتبر حمولة HTML بحجم 2 ميغابايت كبيرة جدًا، ولن تصل إلى هذا الحدّ الأقصى أبدًا. ومع ذلك، إذا كانت صفحتك تتضمّن صورًا مضخّمة مضمّنة في قاعدة 64، أو كتلًا كبيرة من CSS/JavaScript المضمّنة، أو تبدأ بوحدات ميغابايت من القوائم، قد يؤدي ذلك إلى تجاوز المحتوى النصي الفعلي أو البيانات المنظَّمة المُهمّة للحدّ الأقصى البالغ 2 ميغابايت. وإذا لم يتم جلب وحدات البايت المُهمّة هذه، لن يتعرّف عليها Googlebot.

عرض وحدات البايت

بعد أن يسترد الزاحف وحدات البايت (حتى الحدّ الأقصى)، ينقلها إلى نظام WRS. تعالج خدمة WRS محتوى JavaScript وتنفّذ الرمز البرمجي من جهة العميل بطريقة مشابهة للمتصفّحات الحديثة لفهم الحالة المرئية والنصية النهائية للصفحة. تؤدي عملية العرض إلى جلب ملفات JavaScript وCSS وتنفيذها، كما تعالج طلبات XHR لفهم المحتوى النصي وبنية الصفحة بشكل أفضل (لا تطلب العملية الصور أو الفيديوهات). وينطبق الحدّ الأقصى البالغ 2 ميغابايت أيضًا على كل مورد مطلوب.

ومع ذلك، تذكَّر أنّ خدمة WRS يمكنها تنفيذ الرمز البرمجي الذي استرجعه الزاحف فقط. بالإضافة إلى ذلك، تعالج خدمة عرض الويب (WRS) كل طلب بشكل مستقل، فهي تمحو جميع البيانات المخزَّنة محليًا وبيانات الجلسة بعد كل طلب. وقد يكون لذلك آثار معيّنة على طريقة تفسير أنظمتنا للعناصر الديناميكية التي تعتمد على JavaScript.

أفضل الممارسات المتعلّقة بوحدات البايت

لضمان قدرة Googlebot على جلب المحتوى وفهمه بكفاءة، يجب مراعاة أفضل الممارسات التالية على مستوى وحدات البايت:

  • الحفاظ على خفّة ملفات HTML: يمكنك نقل ملفات CSS وJavaScript الكبيرة إلى ملفات خارجية. ومع أنّ حجم مستند HTML الأوّلي لا يتجاوز 2 ميغابايت، يتم جلب النصوص البرمجية وأوراق الأنماط الخارجية بشكل منفصل (مع مراعاة الحدود القصوى الخاصة بها).
  • الترتيب مهم: ضَع العناصر الأكثر أهمية، مثل العلامات الوصفية وعناصر <title> وعناصر <link> وعناوين URL الأساسية والبيانات المنظَّمة الأساسية، في أعلى مستند HTML. يضمن ذلك عدم العثور على أي نتائج تحت الجزء المقتطع.
  • تتبُّع سجلّات الخادم: راقِب أوقات استجابة الخادم. إذا كان خادمك يواجه صعوبة في عرض وحدات البايت، ستتراجع برامج الزحف تلقائيًا لتجنُّب تحميل عبء زائد على بنيتك الأساسية، ما سيؤدي إلى انخفاض معدّل الزحف.

يُرجى العِلم أنّ هذا الحدّ ليس ثابتًا وقد يتغيّر بمرور الوقت مع تطوّر الويب وزيادة حجم صفحات HTML. (أو انخفاض حجمها، نأمل ذلك.)

الزحف ليس سحرًا، بل هو عملية منظَّمة للغاية وموسَّعة لتبادل وحدات البايت. من خلال فهم طريقة استرجاع وحدات البايت وتحديدها في البنية الأساسية المركزية لجلب المحتوى، يمكنك التأكّد من أنّ المحتوى الأكثر أهمية في موقعك الإلكتروني يظهر دائمًا.

نتمنى لك التوفيق في عمليات التحسين

هل يهمّك الاطّلاع على المزيد من التفاصيل من وراء الكواليس؟ يمكنك الاستماع إلى الحلقة 105 من بودكاست Search Off the Record على YouTube أو أي منصة أخرى تستخدمها للاستماع إلى البودكاست.