बड़ी साइट के मालिक के लिए, वेबसाइट का क्रॉल बजट मैनेज करने के बारे में गाइड

इस गाइड में बताया गया है कि अक्सर अपडेट की जाने वाली बड़ी साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे बेहतर बनाया जा सकता है.

अगर आपकी साइट पर, ऐसे ज़्यादा पेज नहीं हैं जो अक्सर अपडेट किए जाते हैं या अगर आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें पब्लिश किया जाता है, तो यह गाइड आपके लिए नहीं है. आपके लिए, नियमित तौर पर साइटमैप को अप-टू-डेट रखना और इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.

अगर आपका कॉन्टेंट काफ़ी समय से साइट पर उपलब्ध है, लेकिन उसे कभी इंडेक्स नहीं किया गया, तो यह एक अलग समस्या है. आपके पेज को इंडेक्स क्यों नहीं किया जा रहा, इसका पता लगाने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें.

यह गाइड किसके लिए है

यह एक बेहतर गाइड है और इसका इस्तेमाल नीचे दी गई इस तरह की साइटों के लिए किया जा सकता है:

  • 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी नहीं बदलता, जैसे कि हफ़्ते में एक बार
  • 10 हज़ार से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी अपडेट होता है, जैसे कि हर रोज़
  • ऐसी साइटें जिनके सभी यूआरएल में से काफ़ी सारे यूआरएल को Search Console ने खोजा गया - फ़िलहाल इंडेक्स नहीं किया गया की कैटगरी में रखा है

क्रॉल होने से जुड़ी सामान्य बातें

वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Googlebot किसी साइट को क्रॉल करने में कितना समय ले सकता है, इसकी कुछ सीमाएं हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. ध्यान दें, यह ज़रूरी नहीं है कि आपकी साइट के क्रॉल किए गए हर पेज को इंडेक्स किया जाए. हर पेज की जांच करना, उन्हें एक साथ लाना, और उनका आकलन करना ज़रूरी है. ऐसा यह तय करने के लिए किया जाता है कि पेजों को क्रॉल करने के बाद, उन्हें इंडेक्स किया जाएगा या नहीं.

क्रॉल बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.

क्रॉल करने की क्षमता की सीमा

Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Googlebot आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाता है. क्षमता इस बात से तय की जाती है कि Googlebot किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी ज़रूरी कॉन्टेंट को कवरेज दी जा सके.

क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:

  • क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे काम करती है या सर्वर की गड़बड़ियां मिलती है, तो क्रॉल दर की सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
  • साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास काफ़ी सारी मशीनें हैं, लेकिन इनकी संख्या इतनी भी नहीं है कि सभी साइटों को क्रॉल किया जा सके. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.

क्रॉल करने की ज़रूरत

आम तौर पर, साइट को क्रॉल करने के लिए Google ज़रूरत के हिसाब से आपकी साइट पर समय बिताता है. इसके लिए, वह दूसरी साइटों के मुकाबले आपकी साइट का साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी देखता है.

क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:

  • बताई गई इन्वेंट्री: आपकी मदद के बिना, Googlebot आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करेगा जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, ग़ैर-ज़रूरी पेज वगैरह) से आपको उन्हें क्रॉल नहीं कराना है, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आसानी से कंट्रोल किया जा सकता है.
  • लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे इंडेक्स में मौजूद रहें.
  • पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.

इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से इंडेक्स किया जा सके.

कुल मिलाकर कहें, तो

क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Googlebot क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता तय सीमा तक नहीं पहुंचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Googlebot आपकी साइट को कम बार क्रॉल करेगा.

सबसे सही तरीके

क्रॉल करने की क्षमता को बढ़ाने के लिए नीचे दिए गए सबसे सही तरीके अपनाएं:

  • यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें इंडेक्स करने की ज़रूरत नहीं है, तो हो सकता है कि Googlebot आपकी साइट के बाकी हिस्से को क्रॉल न करे या आपका क्रॉल बजट न बढ़ाए.
    • डुप्लीकेट कॉन्टेंट को एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल के बजाय, यूनीक कॉन्टेंट को क्रॉल करने पर फ़ोकस किया जा सके.
    • robots.txt का इस्तेमाल करके, यूआरएल को क्रॉल किए जाने से रोकना. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन यह ज़रूरी नहीं कि आप उन्हें Search के नतीजों में दिखाना चाहें. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, जिन पर लिंक किए गए पेजों में मौजूद जानकरी को डुप्लीकेट किया गया है या किसी पेज के अलग-अलग वर्शन. अगर पहले बुलेट पॉइंट में बताए गए तरीके से भी ये पेज एक साथ नहीं आ पा रहे हैं, तो robots.txt का इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें. यूआरएल को क्रॉल किए जाने से रोकने के लिए, robots.txt का इस्तेमाल करने से, यूआरएल के इंडेक्स होने की संभावना काफ़ी कम हो जाती है.
    • हमेशा के लिए हटाए गए पेजों के लिए, 404 या 410 स्टेटस कोड दिखाएं. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए 404 स्टेटस कोड दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद उन्हें फिर से क्रॉल किया जाएगा.
    • soft 404 गड़बड़ियां हटाएं. किसी पेज पर soft 404 दिखाने से उसके क्रॉल होने पर पाबंदी नहीं लगती और इससे आपके क्रॉल बजट पर असर पड़ सकता है. soft 404 गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.
    • अपने साइटमैप को अप-टू-डेट रखें. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आपको जिन कॉन्टेंट को Google से क्रॉल कराना है उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप <lastmod> टैग शामिल करें.
    • दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
  • अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
  • अपनी साइट के क्रॉल होने पर नज़र रखना. नज़र रखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आपकी साइट को बेहतर तरीके से क्रॉल किया जा सकता है.

अपनी साइट के क्रॉल होने और इंडेक्स होने पर नज़र रखना

यहां आपकी साइट की क्रॉल प्रोफ़ाइल पर नज़र रखने का तरीका दिया गया है:

  1. देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
  2. देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
  3. देखें कि क्या आपकी साइट के किसी भी हिस्से को उससे ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए जिस तेज़ी से वे अभी क्रॉल किए जा रहे हैं.
  4. अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
  5. अपनी साइट पर ज़रूरत से ज़्यादा क्रॉल करने के अनुरोधों को हैंडल करें.

देखें कि Googlebot को आपकी साइट पर उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही

अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. जैसा पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.

गड़बड़ी का पता लगाना:

Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.

इसके अलावा, अपनी साइट पर कुछ यूआरएल की जांच करने के लिए, यूआरएल जांचने वाले टूल का भी इस्तेमाल किया जा सकता है. अगर टूल Hostload ज़्यादा बढ़ गया चेतावनी दिखाता है, तो इसका मतलब है कि Googlebot आपकी साइट के उतने यूआरएल क्रॉल नहीं कर सकता जितने की उसे मिले हैं.

हल:

  • उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
  • जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
  • पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
  • अपनी सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.

देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है

अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).

गड़बड़ी का पता लगाना:

Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, अपनी साइट के लॉग पर जाकर, यह देखा जा सकता है कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.

ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.

हल:

अगर अपनी साइट में पेज जोड़े जा रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.

  1. Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
  2. अपने robots.txt के निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
  3. क्रॉल करने की प्राथमिकताओं की समीक्षा करें (मतलब अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें). अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
  4. देख लें कि आपकी साइट की सर्विंग क्षमता खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.

ध्यान दें कि अगर उपयोगकर्ता की किसी कॉन्टेंट में दिलचस्पी नहीं हैं या वह किसी कॉन्टेंट को नहीं देखना चाहता है, तो हो सकता है कि क्रॉल किए जाने के बावजूद, खोज के नतीजों में ऐसे कॉन्टेंट वाले पेज न दिखें.

देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं

अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि पेजों में किए गए अपडेट के बारे में हमें कैसे बताया जा सकता है.

ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.

गड़बड़ी का पता लगाना:

यह देखने के लिए अपनी साइट के लॉग देखें कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं.

इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए, Google पर खोज करें.

हल:

यह करें:

  • अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें.
  • इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में <lastmod> टैग का इस्तेमाल करें.
  • यूआरएल के लिए सामान्य स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
  • स्टैंडर्ड और क्रॉल किए जा सकने वाले <a> लिंक दें, ताकि Google आपके पेज ढूंढ पाए.

ऐसा करने से बचें:

  • हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
  • यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
  • साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आपको इंडेक्स नहीं कराना है.

अपनी साइट की क्रॉल होने की क्षमता को बढ़ाना

अपने पेज के लोड होने की रफ़्तार बढ़ाना

Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.

जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:

  • robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
  • पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
  • दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
  • सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.

एचटीटीपी स्टेटस कोड का इस्तेमाल करके, कॉन्टेंट में किए गए बदलावों के बारे में बताना

Google पर, क्रॉल करने के लिए If-Modified-Since और If-None-Match एचटीटीपी अनुरोध के हेडर इस्तेमाल किए जा सकते हैं. Google के क्रॉलर, क्रॉल करने की सभी कोशिशों के साथ हेडर नहीं भेजते. ऐसा अनुरोध के इस्तेमाल के तरीके पर निर्भर होता है. उदाहरण के लिए, AdsBot, If-Modified-Since और If-None-Match एचटीटीपी अनुरोध के हेडर सेट कर सकता है. अगर हमारे क्रॉलर If-Modified-Since हेडर भेजते हैं, तो हेडर की वैल्यू तारीख और समय होती है, जब कॉन्टेंट को पिछली बार क्रॉल किया गया था. इस वैल्यू के आधार पर, सर्वर 304 (Not Modified) एचटीटीपी स्टेटस कोड दिखा सकता है. इस कोड के लिए जवाब का कोई मुख्य हिस्सा नहीं मिलता. ऐसे में Google, कॉन्टेंट के उस वर्शन को फिर से इस्तेमाल करेगा जिसे उसने पिछली बार क्रॉल किया था. अगर कॉन्टेंट, If-Modified-Since हेडर में दी गई तारीख से नया है, तो सर्वर जवाब के मुख्य हिस्से के साथ 200 (OK) एचटीटीपी स्टेटस कोड दिखा सकता है.

अगर यूआरएल पर पिछली बार Googlebot के जाने के बाद कॉन्टेंट को नहीं बदला गया है, तो Googlebot के किसी भी अनुरोध के लिए जवाब के मुख्य हिस्से के बिना 304 (Not Modified) एचटीटीपी स्टेटस कोड भेजा जा सकता है. इस दौरान अनुरोध के हेडर नज़रअंदाज़ किए जा सकते हैं. इससे, सर्वर प्रोसेस करने में लगने वाला समय और रिसॉर्स बचेंगे. इससे क्रॉल करने की क्षमता में सुधार हो सकता है.

जिन यूआरएल को खोज के नतीजों में नहीं दिखाना है उन्हें छिपाना

ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला नया या अपडेट किया गया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.

आपको अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन श्रेणियों में आते हैं:

यह करें:

  • अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
  • अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.

ऐसा करने से बचें:

  • अपनी साइट के क्रॉल बजट को फिर से बढ़ाने के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आपको लंबे समय तक Google पर नहीं देखना है.
  • बजट को फिर से बढ़ाने के लिए, साइटमैप में लगातार बदलाव न करें. साथ ही, कुछ समय के लिए रिसॉर्स छिपाने के तरीकों का इस्तेमाल न करें.

अपनी साइट पर ज़रूरत से ज़्यादा क्रॉल करने के अनुरोधों को हैंडल करना (आपातकालीन स्थिति)

Googlebot एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों से दबाव न पड़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो ये काम किए जा सकते हैं.

गड़बड़ी का पता लगाना:

अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.

हल:

हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:

  1. जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में, 503 या 429 एचटीटीपी नतीजों का स्टेटस कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आगे बताया गया तरीका अपनाएं.
  2. जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए 503 या 429 एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखाना बंद कर दें; जिन यूआरएल के लिए 503 या 429 दिखेगा, Google अपने इंडेक्स से उनको हटा देगा.
  3. समय के साथ अपनी साइट के क्रॉल होने और होस्ट की क्षमता पर नज़र रखें.
  4. अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए डाइनैमिक सर्च विज्ञापन वाले ऐसे टारगेट बनाए हैं जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर तीम हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.

क्रॉल होने की प्रोसेस से जुड़े भ्रम और तथ्य

Google, वेबसाइटों को क्रॉल और इंडेक्स कैसे करता है, इस बारे में आपको सही जानकारी है या नहीं, इसका पता लगाएं.

अपना साइटमैप कंप्रेस करने से मेरा क्रॉल बजट बढ़ सकता है.
सही
गलत
ऐसा नहीं होता. ज़िप किए गए साइटमैप को अब भी सर्वर से फ़ेच किया जाता है. इसलिए, असल में कंप्रेस किए गए साइटमैप भेजकर, क्रॉल करने में लगने वाले Google के समय या मेहनत को कम नहीं किया जा रहा है.
Google नए कॉन्टेंट को प्राथमिकता देता है, इसलिए मुझे अपने पेज के कॉन्टेंट में बदलाव करते रहना चाहिए.
सही
गलत
कॉन्टेंट की रेटिंग उसकी क्वालिटी से तय की जाती है न कि इस बात से कि कॉन्टेंट कितना पुराना है. कॉन्टेंट बनाएं और उसे ज़रूरत के मुताबिक अपडेट करें. हालांकि, पेज की तारीख बदलने और पेज में छोटे-मोटे बदलाव करके, उसे नए के तौर पर दिखाने से कोई फ़ायदा नहीं होता.
Google, नए कॉन्टेंट के मुकाबले पुराने कॉन्टेंट को प्राथमिकता देता है और उसकी अहमियत ज़्यादा होती है.
सही
गलत
अगर आपका पेज उपयोगी है, तो इस बात से कोई फ़र्क़ नहीं पड़ता कि वह पुराना है या नया है.
Google बिना गड़बड़ी वाले यूआरएल को प्राथमिकता देता है और क्वेरी पैरामीटर को प्राथमिकता नहीं देता.
सही
गलत
हम पैरामीटर क्रॉल कर सकते हैं.
आपके पेज जितनी तेज़ी से लोड और रेंडर होंगे, Google उन्हें उतना ज़्यादा क्रॉल कर पाएगा.
True
यह बात सही है कि हमारे रिसॉर्स, क्रॉल करने में लगने वाला समय और क्रॉल करने वाले बॉट की संख्या, दोनों मामलों में सीमित हैं. अगर हमें तय समय में ज़्यादा पेज दिखाए जाते हैं, तो हम उनमें से ज़्यादातर को क्रॉल कर लेंगे. हालांकि, ऐसा हो सकता है कि हम ज़्यादा उपयोगी साइट को क्रॉल करने में ज़्यादा समय लें. भले ही, वह धीरे क्यों न लोड होती हो. आपके लिए यह ज़्यादा अहम है कि आप साइट को अपने उपयोगकर्ताओं के लिए तेज़ बनाएं, न कि अपने क्रॉल कवरेज बढ़ाने के लिए. ऐसा करके यह आसानी से पक्का किया जा सकेगा कि Google हर बार आपकी साइट का सारे कॉन्टेंट को क्रॉल करने के बजाय, ज़रूरी कॉन्टेंट को क्रॉल करे. ध्यान दें कि साइट को क्रॉल करने की प्रोसेस में कॉन्टेंट को वापस पाना और रेंडर करना, दोनों शामिल होते हैं. पेज को रेंडर करने में उतना ही समय लगता है जितना समय पेज के लिए अनुरोध करने में लगता है. इसलिए, अपने पेज की रेंडर होने की रफ़्तार बढ़ाने से उसे क्रॉल करने की रफ़्तार भी बढ़ती है.
गलत
छोटी साइटों को बड़ी साइटों के मुकाबले कम क्रॉल किया जाता है.
सही
गलत
अगर साइट पर ऐसा अहम कॉन्टेंट मौजूद है जो अक्सर बदलता रहता है, तो हम उसे अक्सर क्रॉल करते हैं. इससे फ़र्क़ नहीं पड़ता कि वह छोटी साइट है या बड़ी.
आपका कॉन्टेंट, साइट के होम पेज से जितना जुड़ा हुआ होगा उतना ही यह Google के लिए अहम होगा.
True
कुछ हद तक सही
होम पेज आपकी साइट का सबसे अहम पेज होता है. इसलिए, होम पेज से लिंक किए गए पेज ज़्यादा अहम माने जा सकते हैं और हो सकता है कि उन्हें दूसरे पेजों के मुकाबले ज़्यादा बार क्रॉल किया जाए. हालांकि, इसका यह मतलब नहीं है कि इन पेजों को, आपकी साइट के दूसरे पेजों के मुकाबले ज़्यादा ऊंची रैंक दी जाएगी.
False
यूआरएल का नया वर्शन बनाना, Google को अपने पेज फिर से क्रॉल करने के लिए कहने का एक अच्छा तरीका है.
सही
कुछ हद तक सही
यूआरएल के अलग वर्शन का इस्तेमाल करके, Google को अपने उस पेज को फिर से क्रॉल करने के लिए कहा जा सकता है जो अभी हाल ही में क्रॉल किया गया था. हालांकि, यह तरीका हमेशा काम करे, यह ज़रूरी नहीं है. अगर पेज में असल और ज़्यादा बदलाव नहीं किए गए हैं, तो इससे क्रॉल करने के लिए ज़रूरी रिसॉर्स की बर्बादी होती है. अगर नए कॉन्टेंट के बारे में बताने के लिए एक से ज़्यादा वर्शन वाले यूआरएल का इस्तेमाल किया जाता है, तो हमारा सुझाव है कि आप पेज के कॉन्टेंट में बहुत ज़्यादा और ज़रूरी बदलाव करने के बाद ही यूआरएल को बदलें.
False
साइट की रफ़्तार और गड़बड़ियां मेरे क्रॉल बजट पर असर डालती हैं.
सही
साइट की रफ़्तार को बेहतर बनाने से, क्रॉल दर बढ़ने के साथ-साथ उपयोगकर्ताओं का अनुभव भी बेहतर होता है. Googlebot के लिए, तेज़ी से लोड होने वाली साइट का मतलब है कि उसका सर्वर अच्छा है. इसलिए, वह कनेक्शन की संख्या सीमित होने पर भी ज़्यादा कॉन्टेंट क्रॉल कर सकता है. वहीं दूसरी ओर, ज़्यादा संख्या में 5xx एचटीटीपी रिस्पॉन्स स्टेटस कोड (सर्वर की गड़बड़ियां) दिखने या कनेक्शन के टाइम आउट होने से पता चलता है कि सर्वर ठीक से काम नहीं कर रहा है. इससे, क्रॉल करने की प्रोसेस धीमी हो जाती है. हमारा सुझाव है कि Search Console में मौजूद, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट पर ध्यान दिया जाए. इससे, सर्वर की गड़बड़ियां कम करने में मदद मिलेगी.
False
क्रॉल करने की प्रोसेस का असर आपकी साइट की रैंक पर पड़ता है.
सही
गलत
अपनी साइट की क्रॉल दर को बढ़ाने से, यह ज़रूरी नहीं है कि खोज के नतीजे में आपकी साइट की रैंक बेहतर हो जाएगी. Google किसी नतीजे की रैंक तय करने के लिए, कई सिग्नल इस्तेमाल करता है. हालांकि, क्रॉल करने की प्रोसेस, पेज को खोज नतीजों में दिखाने के लिए ज़रूरी है. हालांकि, यह कोई रैंकिंग सिग्नल नहीं है.
वैकल्पिक यूआरएल और एम्बेड किए गए कॉन्टेंट को, क्रॉल बजट में ही गिना जाता है.
सही
आम तौर पर, Googlebot जिस यूआरएल को भी क्रॉल करता है उसे साइट के क्रॉल बजट में गिना जाता है. एएमपी या hreflang जैसे वैकल्पिक यूआरएल क्रॉल करना पड़ सकता है. साथ ही, सीएसएस और JavaScript जैसे एम्बेड किए गए कॉन्टेंट को भी क्रॉल करना पड़ सकता है, जिसमें XHR फ़ेच भी शामिल हैं. इसके लिए, साइट के क्रॉल बजट का इस्तेमाल किया जाएगा.
False
मेरे पास "क्रॉल करने में देरी" नियम का इस्तेमाल करके Googlebot को कंट्रोल करने का विकल्प है.
सही
गलत
"क्रॉल करने में देरी" वाले robots.txt के असामान्य नियम को Googlebot प्रोसेस नहीं करता.
nofollow नियम क्रॉल बजट पर असर डालता है.
सही
कुछ हद तक सही
क्रॉल किया जाने वाला हर यूआरएल, क्रॉल बजट पर असर डालता है. इसलिए, अगर आपका पेज किसी यूआरएल को nofollow के तौर पर मार्क करता है, तो भी वह क्रॉल हो सकता है. ऐसा तब होगा, जब आपकी साइट का कोई दूसरा पेज या वेब पर मौजूद कोई पेज उस लिंक को nofollow के तौर पर मार्क नहीं करता.
False
क्रॉल बजट को कंट्रोल करने के लिए, noindex का इस्तेमाल किया जा सकता है.
सही
कुछ हद तक सही
क्रॉल किया जाने वाला हर यूआरएल, क्रॉल बजट पर असर डालता है. साथ ही, noindex नियम ढूंढने के लिए, Google को पेज को क्रॉल करना पड़ता है.

हालांकि, चीज़ों को इंडेक्स किए जाने से रोकने के लिए, noindex का इस्तेमाल किया जाता है. अगर आपको यह पक्का करना है कि ये पेज Google के इंडेक्स में शामिल न हों, तो noindex का इस्तेमाल करना जारी रखें और क्रॉल बजट के बारे में चिंता न करें. इस बात पर भी ध्यान देना ज़रूरी है कि अगर आपने noindex का इस्तेमाल करके या किसी और तरीके से यूआरएल को Google के इंडेक्स से हटाया है, तो Googlebot आपकी साइट पर मौजूद अन्य यूआरएल पर फ़ोकस कर सकता है. इसका मतलब है कि आने वाले समय में noindex, सीधे तौर पर काम न करते हुए भी आपकी साइट का क्रॉल बजट बढ़ा सकता है.
False
4xx एचटीटीपी स्टेटस कोड देने वाले पेज, क्रॉल बजट को बर्बाद कर रहे हैं.
सही
False
4xx एचटीटीपी स्टेटस कोड (429 के अलावा) दिखाने वाले पेज, क्रॉल बजट को बर्बाद नहीं करते हैं. Google ने इस पेज को क्रॉल करने की कोशिश की, लेकिन उसे स्टेटस कोड मिला, न कि कोई कॉन्टेंट.