Google की वेब क्रॉलिंग के बारे में ज़रूरी बातें

Google पिछले 30 सालों से ओपन वेब को क्रॉल कर रहा है. हमसे अक्सर यह पूछा जाता है कि हमारे वेब क्रॉलर कैसे काम करते हैं. ऐसे कुछ सवालों के जवाब देने के लिए, यहां Google के क्रॉलर के बारे में कुछ तथ्यों पर आधारित जानकारी दी गई है. साथ ही, यह बताया गया है कि ये क्रॉलर, दुनिया भर की जानकारी को इकट्ठा करने में हमारी कैसे मदद करते हैं. इससे हम लोगों को वेब पर मौजूद कॉन्टेंट से जोड़ पाते हैं.

क्रॉलिंग क्या होती है? आसान शब्दों में कहें तो क्रॉलिंग के ज़रिए Google, वेब को "देखता" है

क्रॉलिंग एक ऐसी प्रोसेस है जिसमें ऑटोमेटेड सॉफ़्टवेयर का इस्तेमाल करके नए वेब पेजों को खोजा और समझा जाता है. इस तरह, जब किसी वेब पेज को खोजने के लिए Google का इस्तेमाल किया जाता है, तो हमें पता होता है कि वह पेज पहले से मौजूद है. इसलिए, हम उसे आपके खोज नतीजों में शामिल कर पाते हैं. सभी सर्च इंजन, क्रॉलिंग का इस्तेमाल करते हैं. इससे उन्हें यह पता चलता है कि इंटरनेट पर कौनसे पेज और नई जानकारी उपलब्ध है. Google Search, पेजों को कैसे क्रॉल करता है इस बारे ज़्यादा जानने के लिए हमारा वीडियो देखें.

हमारे पास कई क्रॉलर हैं. इन सभी के अलग-अलग ज़रूरी काम हैं

Googlebot हमारा सबसे लोकप्रिय क्रॉलर है. इसका इस्तेमाल, Google Search में खोज के नतीजों को नया बनाए रखने और अप-टू-डेट रखने के लिए किया जाता है. हमारे पास ऐसे क्रॉलर भी हैं जो हमारे अन्य प्लैटफ़ॉर्म, जैसे कि Google Images और Google Shopping के लिए खास तौर पर बनाए गए हैं. हम सबसे ज़्यादा इस्तेमाल किए जाने वाले क्रॉलर और उनके इस्तेमाल के बारे में पूरी जानकारी देते हैं. हमारे क्रॉलर, आसानी से पहचाने जा सकने वाले उपयोगकर्ता एजेंट के नाम और जाने-पहचाने इंटरनेट पतों का इस्तेमाल करते हैं. इसलिए, साइट के मालिक यह भरोसा कर सकते हैं कि उन्हें जो Google के क्रॉलर दिख रहे हैं वे असली और सुरक्षित हैं.

हम बार-बार क्रॉल करते हैं, ताकि हमें नई जानकारी मिल सके और हम आपको नए खोज नतीजे दिखा सकें

ताज़ा खबरों वाले लेखों को ढूंढने के लिए, हम हर कुछ मिनट में समाचार वेबसाइटों के होम पेज को फिर से क्रॉल करते हैं. अगर हमें लगता है कि किसी पेज पर सालों से कोई बदलाव नहीं हुआ है, तो हम फिर से क्रॉल करने के लिए एक महीने तक इंतज़ार कर सकते हैं. साइट के मालिक, साइटमैप फ़ाइलों का इस्तेमाल करके यह तय कर सकते हैं कि साइट को कितनी बार फिर से क्रॉल किया जाए. इन फ़ाइलों से हमें नए और अपडेट किए गए पेजों के बारे में पता चलता है.

बार-बार क्रॉलिंग होना एक अच्छा संकेत है!

अगर हम आपकी साइट को बार-बार क्रॉल कर रहे हैं, तो इसका मतलब है कि आपके पेजों पर नया या काम का कॉन्टेंट मौजूद है. लोग इस कॉन्टेंट को खोज रहे हैं और हमारे सिस्टम को इसकी मांग का पता चला है. ऑनलाइन शॉपिंग इसका एक बेहतरीन उदाहरण है: हम ई-कॉमर्स साइटों को अक्सर क्रॉल करते हैं, ताकि हमारे नतीजों में खुदरा दुकानदारों की सबसे नई कीमतें, प्रमोशन, और इन्वेंट्री की स्थिति दिखे.

वेब पेज पहले से ज़्यादा जटिल होने की वजह से, समय के साथ Google की क्रॉलिंग बढ़ गई है

हम बार-बार क्रॉल इसलिए करते हैं, ताकि हम आपके वेब पेज की बारीकियों और उसमें मौजूद जानकारी को पूरी तरह से समझ सकें. हमारे क्रॉलर, रेंडरिंग नाम की तकनीक का इस्तेमाल करते हैं. इससे वे किसी साइट को पूरी तरह से लोड करते हैं, ताकि वे पेज को ठीक उसी तरह "देख" सकें जिस तरह कोई असल व्यक्ति उसे देखेगा. पिछले कुछ सालों में, वेब पेज पहले से और बेहतर हो गए हैं. एक औसत मोबाइल पेज का साइज़ 816 किलोबाइट से बढ़कर 2.3 मेगाबाइट हो गया है. साथ ही, अब इसमें इमेज से लेकर इंटरैक्टिव कॉम्पोनेंट तक, लोड करने के लिए 60 से ज़्यादा अलग-अलग फ़ाइलें होती हैं. इसलिए, किसी वेब पेज का सबसे अच्छा स्नैपशॉट पाने के लिए, हमें उस पेज को कई बार क्रॉल करने की ज़रूरत पड़ सकती है. ऐसा खासकर तब होता है, जब उस पर लगातार नए एलिमेंट हर समय जोड़े जा रहे हों.

हम क्रॉलिंग को अपने-आप ऑप्टिमाइज़ करते हैं

हमारे क्रॉलर को इस तरह से डिज़ाइन किया गया है कि वे कम समय में ज़्यादा से ज़्यादा पेजों को क्रॉल कर सकें. ये क्रॉलिंग की स्पीड को अपने-आप अडजस्ट करते हैं, ताकि साइट की परफ़ॉर्मेंस और उसके मालिक पर इसका बुरा असर न पड़े. उदाहरण के लिए, जब कोई साइट धीरे काम करती है या गड़बड़ियां दिखाती है, तो साइट के सर्वर पर ज़्यादा लोड पड़ने से बचाने के लिए, क्रॉल दर अपने-आप बदल जाती है. हम क्रॉल किए गए कॉन्टेंट को कैश मेमोरी में सेव करके, बिना वजह क्रॉलिंग को सीमित करने की कोशिश करते हैं. साथ ही, जैसे-जैसे हमारे क्रॉलर किसी वेबसाइट के ज़्यादा पेजों को ढूंढते हैं वैसे-वैसे वे उन सेक्शन की पहचान भी कर पाते हैं जिन्हें बार-बार क्रॉल करने की ज़रूरत नहीं होती. उदाहरण के लिए, 9999 तक के कैलेंडर को शायद पूरी तरह से क्रॉल करने की ज़रूरत नहीं होती. वेबसाइट के मालिक, यह तय करके मदद कर सकते हैं कि किस कॉन्टेंट को क्रॉल करने की ज़रूरत नहीं है. इससे वेबसाइटों के इन्फ़्रास्ट्रक्चर की लागत कम करने में मदद मिलती है. साथ ही, इंटरनेट का इस्तेमाल और बेहतर बनाया जा सकता है.

Google के क्रॉलर, पेवॉल किए गए या सदस्यता वाले कॉन्टेंट को आपकी अनुमति के बिना ऐक्सेस नहीं करते

डिफ़ॉल्ट रूप से, अगर कोई पेज ओपन वेब पर ऐक्सेस नहीं किया जा सकता है, तो हमारे क्रॉलर भी उसे ऐक्सेस नहीं कर सकते. उदाहरण के लिए, अगर कॉन्टेंट को ऐक्सेस करने के लिए लॉग इन करना पड़ता है. अगर साइट के मालिक, Google को अपने सदस्यता वाले पेजों को ऐक्सेस करने की अनुमति देना चाहते हैं, तो हमने उनके लिए दिशा-निर्देश तैयार किए हैं. इससे Google, उपयोगकर्ताओं को आपके उस कॉन्टेंट पर रीडायरेक्ट कर सकता है. अगर आपको हमारे क्रॉलर को सदस्यता का ऐक्सेस देना है, तो स्ट्रक्चर्ड डेटा का इस्तेमाल करें. इससे, लोगों को लॉगिन स्क्रीन दिखती रहेगी और स्पैम से जुड़े हमारे नियमों का उल्लंघन नहीं होगा. झलक दिखने से जुड़े कंट्रोल का इस्तेमाल करके, सदस्यता वाले कॉन्टेंट को पेज की झलक में दिखने से रोका जा सकता है.

साइट के मालिकों के पास यह कंट्रोल होता है कि उनकी साइट से कौनसा डेटा क्रॉल किया जाए और कैसे

हम ओपन वेब स्टैंडर्ड का पालन करते हैं. जैसे, robots.txt. यह एक सामान्य टेक्स्ट फ़ाइल होती है. इससे साइट के मालिक यह तय कर सकते हैं कि हमारे जैसे क्रॉलर को उनके पेजों के साथ कैसे इंटरैक्ट करना चाहिए. robots.txt फ़ाइल और रोबोट मेटा टैग की मदद से, वेबसाइट के मालिक आसानी से Google और अन्य सेवाओं को यह बता सकते हैं कि उनके कॉन्टेंट को कैसे ऐक्सेस किया जाए. वे पेजों को Search में दिखने से रोक सकते हैं. वे हमें उस नए कॉन्टेंट के बारे में बता सकते हैं जिसे उन्हें साइटमैप का इस्तेमाल करके क्रॉल करना है. साथ ही, वे यह मैनेज कर सकते हैं कि हम उनकी साइटों को कितनी बार क्रॉल करें. इसके लिए, वे क्रॉल बजट का इस्तेमाल कर सकते हैं.

हमारे स्टैंडर्ड क्रॉलर, वेबसाइटों के कॉन्टेंट को ऐक्सेस और इस्तेमाल करने के नियमों का पालन करते हैं

क्रॉल करने के बाद, हम क्रॉल किए गए डेटा का कई बार इस्तेमाल कर सकते हैं. इससे साइटों पर बार-बार किए जाने वाले अनुरोधों को कम किया जा सकता है. इस डेटा का दोबारा इस्तेमाल करते समय भी, हम उन सेटिंग और फैसलों का पूरा ध्यान रखते हैं जो आपने robots.txt के ज़रिए तय किए हैं. साथ ही, हम उस ओपन वेब प्रोटोकॉल के ज़रिए उपलब्ध कराए गए कंट्रोल को प्राथमिकता देते हैं. उदाहरण के लिए, साइटें robots.txt में Google-Extended का इस्तेमाल कर सकती हैं. इससे वे यह कंट्रोल कर सकती हैं कि उनका कॉन्टेंट, Gemini मॉडल के आने वाले वर्शन को ट्रेनिंग देने में मदद करे या नहीं. Google-Extended का इस्तेमाल करने से, Search में किसी साइट को शामिल करने पर कोई असर नहीं पड़ता. साथ ही, हम Search में Google-Extended का इस्तेमाल रैंकिंग सिग्नल के तौर पर भी नहीं करते.

हम साइट के मालिकों को कई टूल उपलब्ध कराते हैं, ताकि वे Google की क्रॉलिंग को मैनेज कर सकें. इनमें Google Search Console भी शामिल है. यह साइट के मालिकों के लिए बिना किसी शुल्क के उपलब्ध है. इससे, इस बारे में जानकारी मिलती है कि हमने कितना कॉन्टेंट क्रॉल किया है और क्यों. इससे साइटों को सर्वर के बंद होने या स्पीड से जुड़ी समस्याओं का पता लगाने में भी मदद मिलती है. इसके अलावा, Search Console से यह भी पता चलता है कि Search में किसी साइट के पेज कैसे दिखते हैं और उपयोगकर्ता उनसे कैसे जुड़ रहे हैं.

हमारे क्रॉलर, लोगों को वेब पर मौजूद बेहतरीन कॉन्टेंट से जुड़ने में मदद करते हैं. हम हमेशा इन्हें बेहतर और असरदार बनाने के तरीके ढूंढते हैं.