Google के क्रॉलर (उपयोगकर्ता एजेंट) के बारे में खास जानकारी

एक वेबपेज से दूसरे वेबपेज के लिंक पर जाकर अपने आप वेबसाइटें खोजने और स्कैन करने वाले सभी प्रोग्राम (जैसे कि रोबोट या स्पाइडर) को "क्रॉलर" कहा जाता है. Google के मुख्य क्रॉलर को Googlebot कहा जाता है. इस टेबल में, Google के उन आम क्रॉलर की जानकारी दी गई है जिन्हें आप अपने रेफ़रलकर्ता लॉग में देख सकते हैं. साथ ही, यह जानकारी भी दी गई है कि उन्हें robots.txt, robots मेटा टैग, और X-Robots-Tag के एचटीटीपी निर्देशों में कैसे दिखाया जाना चाहिए.

इस टेबल में, उन क्रॉलर को दिखाया गया है जिनका इस्तेमाल अलग-अलग प्रॉडक्ट और सेवाएं Google पर करती हैं:

  • उपयोगकर्ता एजेंट टोकन का इस्तेमाल robots.txt में User-agent: लाइन में किया जाता है. अपनी साइट के लिए क्रॉल के नियम तय करते समय, robots.txt को सही क्रॉलर के साथ रखें. जैसा कि टेबल में दिखाया गया है, कुछ क्रॉलर के पास एक से ज़्यादा टोकन हैं. इसे लागू करने के लिए, आपको एक नियम के लिए एक ही क्रॉलर टोकन का मिलान करना होगा. हालांकि, यह सूची पूरी नहीं है, लेकिन इसमें आपकी वेबसाइट पर दिखाई देने वाले ज़्यादातर क्रॉलर के नाम मौजूद हैं.
  • उपयोगकर्ता एजेंट की पूरी स्ट्रिंग, क्रॉलर का पूरा ब्योरा है जो अनुरोध और आपके वेब लॉग में दिखाई देता है.
क्रॉलर के इन मानों की नकल भी की जा सकती है. रिवर्स डीएनएस लुकअप इस्तेमाल करके आप पुष्टि कर सकते हैं कि आपकी साइट पर आने वाला वाकई Googlebot ही है.
क्रॉलर उपयोगकर्ता एजेंट टोकन (उत्पाद टोकन) उपयोगकर्ता एजेंट की पूरी स्ट्रिंग
एपीआई-Google

APIs-Google

APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot मोबाइल वेब Android

(Android पर वेब पेज के विज्ञापन की क्वालिटी की जांच करता है)

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot मोबाइल वेब

(iPhone पर वेब पेज के विज्ञापन की क्वालिटी की जांच करता है)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot

(डेस्कटॉप पर वेब पेज के विज्ञापन की क्वालिटी की जांच करता है)

AdsBot-Google

AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot इमेज
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0
Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot वीडियो
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0

Googlebot (डेस्कटॉप)

Googlebot

  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

    या (बहुत कम इस्तेमाल किया जाता है):
  • Googlebot/2.1 (+http://www.google.com/bot.html)

Googlebot (स्मार्टफ़ोन)

Googlebot

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

मोबाइल AdSense

Mediapartners-Google

(अलग-अलग तरह के मोबाइल डिवाइस) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

मोबाइल ऐप्लिकेशन Android

(Android ऐप्लिकेशन पेज की विज्ञापन गुणवत्ता की जांच करता है. AdsBot-Google robots नियमों का पालन करता है.)

AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps

Feedfetcher

FeedFetcher-Google

robots.txt के नियमों का पालन नहीं करता है - यहां इसकी वजह बताई गई है

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google Read Aloud

Google-Read-Aloud

robots.txt के नियमों का पालन नहीं करता है - यहां इसकी वजह बताई गई है

मौजूदा एजेंट:

  • डेस्कटॉप एजेंट: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)
  • मोबाइल एजेंट: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +/search/docs/advanced/crawling/overview-google-crawlers)

पुराना एजेंट (अब इस्तेमाल में नहीं है): google-speakr

Duplex on the web

DuplexWeb-Google

* उपयोगकर्ता-एजेंट वाइल्डकार्ड को नज़रअंदाज़ कर सकता है - यहां इसकी वजह बताई गई है

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Google फ़ेविकोन

(कई तरह की सेवाओं के लिए फ़ेविकोन को डाउनलोड करता है)

Google Favicon

उपयोगकर्ताओं के अनुरोधों के लिए, robots.txt के नियमों का पालन नहीं करता है

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light

googleweblight

robots.txt के नियमों का पालन नहीं करता है - यहां इसकी वजह बताई गई है

Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
उपयोगकर्ता एजेंट में Chrome/W.X.Y.Z

आपको टेबल की उपयोगकर्ता एजेंट स्ट्रिंग में जहां भी Chrome/W.X.Y.Z स्ट्रिंग दिखती हैं वहां W.X.Y.Z असल में प्लेसहोल्डर होता है. इससे पता चलता है कि वह उपयोगकर्ता एजेंट, Chrome ब्राउज़र के किस वर्शन का इस्तेमाल कर रहा है: उदाहरण के लिए, 41.0.2272.96. वर्शन का नंबर, Googlebot के इस्तेमाल किए गए, क्रोमियम के रिलीज़ हुए नए वर्शन से मिलान करने के लिए, समय के साथ बढ़ेगा.

इस पैटर्न वाले उपयोगकर्ता एजेंट के लिए, अपने लॉग खोजते या सर्वर को फ़िल्टर करते समय, आपको अपना सटीक वर्शन नंबर देने के बजाय वाइल्डकार्ड का इस्तेमाल करना चाहिए.

robots.txt में उपयोगकर्ता एजेंट

robots.txt फ़ाइल में कई उपयोगकर्ता-एजेंट की पहचान की जाती है, लेकिन Google खास तौर पर दिखाए गए एजेंट को फ़ॉलो करता है. अगर आप चाहते हैं कि Google आपके पूरे पेजों को क्रॉल कर पाए, तो आपको किसी भी robots.txt की बिल्कुल भी ज़रूरत नहीं है. अगर आप Google के सभी क्रॉलर को अपनी कुछ सामग्री एक्सेस करने की मंज़ूरी देना चाहते हैं या उन्हें ऐसा करने से रोकना चाहते हैं, तो आप Googlebot को उपयोगकर्ता-एजेंट के तौर पर दिखाकर ऐसा कर सकते हैं. उदाहरण के लिए, अगर आप चाहते हैं कि आपके सभी पेज Google खोज में दिखाई दें और अगर आप AdSense विज्ञापनों को अपने पेजों पर दिखाना चाहते हैं, तो आपको किसी robots.txt फ़ाइल की ज़रूरत नहीं है. इसी तरह, अगर आप कुछ पेजों को Google से पूरी तरह रोकना चाहते हैं, तो उपयोगकर्ता-एजेंट Googlebot पर रोक लगाने से Google के अन्य सभी उपयोगकर्ता-एजेंट पर भी रोक लग जाएगी.

अगर आप ज़्यादा नियंत्रण चाहते हैं, तो आप अपनी ज़रूरत के हिसाब से खास कार्रवाई कर सकते हैं. उदाहरण के लिए, हो सकता है आप चाहें कि आपके सभी पेज 'Google सर्च' में दिखाई दें, लेकिन यह नहीं चाहते कि आपकी निजी डायरेक्ट्री के चित्रों को क्रॉल किया जाए. इस मामले में, उपयोगकर्ता-एजेंट Googlebot-इमेज को अपनी /निजी डायरेक्ट्री की फ़ाइलें क्रॉल करने की अनुमति नहीं देने के लिए, (Googlebot को सभी फ़ाइलों को क्रॉल करने की अनुमति देते हुए) robots.txt का इस्तेमाल इस तरह करें:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal
एक और उदाहरण लेते हैं, मान लीजिए कि आप अपने सभी पेजों पर विज्ञापन चाहते हैं, लेकिन आप नहीं चाहते कि वे पेज Google Search में दिखें. यहां, आप Googlebot पर रोक लगाएंगे, लेकिन Mediapartners-Google को अनुमति देंगे, इस तरह से:
User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Robots मेटा टैग में उपयोगकर्ता एजेंट

कुछ पेज अलग-अलग क्रॉलर से जुड़े निर्देश बताने के लिए, एक से ज़्यादा robots मेटा टैग का इस्तेमाल करते हैं, जैसे कि:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

इस मामले में Google, नामंज़ूरी वाले सभी निर्देशों का इस्तेमाल करेगा और Googlebot, noindex और nofollow दोनों निर्देशों का पालन करेगा. उन तरीकों को कंट्रोल करने के बारे में ज़्यादा जानकारी जिनकी मदद से Google, आपकी साइट को क्रॉल और इंडेक्स करता है.