बेहतर जानकारी: Search कैसे काम करता है

यह समझना ज़रूरी है कि Google Search, कॉन्टेंट को क्रॉल करने, इंडेक्स करने, और वेब पर दिखाने का काम किस तरह करता है. इससे, आपको अपनी साइट पर होने वाली समस्याओं को डीबग करने और Search के काम करने के तरीके को समझने में मदद मिलती है.

क्रॉल करना

क्रॉलिंग ऐसी प्रोसेस है जिसकी मदद से Googlebot, Google इंडेक्स में जोड़े जाने वाले नए और अपडेट किए गए पेजों पर जाता है.

हम वेब पर अरबों पेजों को फ़ेच करने (या "क्रॉल करने") के लिए बहुत सारे कंप्यूटर का इस्तेमाल करते हैं. पेज ढूंढने वाले इस प्रोग्राम को Googlebot कहते हैं. इसे रोबोट, बॉट या स्पाइडर के नाम से भी जाना जाता है. Googlebot, एल्गोरिदम प्रोसेस का इस्तेमाल करके यह तय करता है कि किस साइट को क्रॉल करना है, उसे कितनी बार क्रॉल करना है, और हर साइट से कितने पेज क्रॉल करने हैं.

Google की क्रॉल करने की प्रोसेस, वेब पेज के यूआरएल की सूची बनाने से शुरू होती है. यह सूची, क्रॉल करने की पिछली प्रोसेस और वेबसाइट के मालिकों से मिले साइटमैप के डेटा की मदद से तैयार की जाती है. जब Googlebot किसी पेज पर जाता है, तो वहां उसे लिंक मिलते हैं. Googlebot इन लिंक को उन पेजों की सूची में जोड़ देता है जिन्हें क्रॉल किया जाना है. नई साइटें, मौजूदा साइटों में किए गए बदलाव, और इस्तेमाल में न आने वाले लिंक नोट किए जाते हैं और उनका इस्तेमाल, Google इंडेक्स को अपडेट करने के लिए किया जाता है.

Google, क्रॉल करते समय पेज को रेंडर करने के लिए, Chrome के सबसे नए वर्शन का इस्तेमाल करता है. रेंडरिंग के दौरान Google, उन सभी पेज स्क्रिप्ट को क्रॉल करता है जो उसे मिलते हैं. अगर आपकी साइट पर, डाइनैमिक तरीके से जनरेट किया गया कॉन्टेंट इस्तेमाल किया जाता है, तो JavaScript एसईओ की बुनियादी बातों का ज़रूर ध्यान रखें.

Google को कैसे पता चलता है कि किन पेजों को क्रॉल नहीं करना है?

  • अगर robots.txt फ़ाइल का इस्तेमाल करके, पेजों को ब्लॉक किया गया है, तो Google ऐसे पेजों को क्रॉल नहीं करता है. हालांकि, अगर किसी दूसरे पेज पर उनका लिंक मिलता है, तो उन्हें इंडेक्स किया जा सकता है. Google, लिंक से यह अंदाज़ा लगा सकता है कि पेज पर किस तरह का कॉन्टेंट है और पार्स किए बिना ही उसे इंडेक्स कर सकता है.
  • Google ऐसे पेजों को क्रॉल नहीं कर सकता जिन्हें ऐक्सेस करने के लिए, उपयोगकर्ता को किसी से अनुमति लेनी पड़े. इसलिए, ऐसे किसी पेज को क्रॉल नहीं किया जाता जिसे ऐक्सेस करने के लिए, लॉगिन करने या सुरक्षा से जुड़ी किसी मंज़ूरी की ज़रूरत हो.
  • जिन पेजों को पहले ही क्रॉल किया जा चुका है और माना जाता है कि वे दूसरे पेज के डुप्लीकेट हैं उन्हें ज़्यादा बार क्रॉल नहीं किया जाता.

क्रॉल कराने के लिए, अपनी साइट को बेहतर बनाना

इन तकनीकों का इस्तेमाल करें, ताकि आपकी साइट के पेज ढूंढने में Google को मदद मिल सके:

इंडेक्स करना

पेज के कॉन्टेंट को समझने के लिए, Googlebot क्रॉल किए गए सभी पेजों को प्रोसेस करता है. इसमें, टेक्स्ट कॉन्टेंट, मुख्य कॉन्टेंट टैग, और एट्रिब्यूट को प्रोसेस करना शामिल हैं. जैसे कि <title> टैग और ऑल्ट एट्रिब्यूट के साथ इमेज और वीडियो वगैरह को प्रोसेस किया जाता है. Googlebot कई तरह के कॉन्टेंट को क्रॉल और इंडेक्स कर सकता है, लेकिन हर तरह के कॉन्टेंट को नहीं. उदाहरण के लिए, हम रिच मीडिया वाली कुछ फ़ाइलों का कॉन्टेंट क्रॉल और इंडेक्स नहीं करते.

क्रॉल और इंडेक्स करते समय, Google को यह पता चल जाता है कि कोई पेज, दूसरे पेज का डुप्लीकेट या कैननिकल है या नहीं. अगर पेज को डुप्लीकेट माना जाता है, तो उसे कम बार क्रॉल किया जाएगा. किसी दस्तावेज़ में एक जैसे पेजों का ग्रुप बनाया जाता है. यह एक या इससे ज़्यादा पेजों का ऐसा ग्रुप होता है जिसमें कैननिकल पेज (ग्रुप का सबसे अहम प्रतिनिधि) और पाए गए डुप्लीकेट पेज (जो उसी पेज तक जाने के लिए वैकल्पिक यूआरएल या उसी पेज का मोबाइल या डेस्कटॉप वर्शन भी हो सकता है) भी शामिल होते हैं.

ध्यान दें कि Google, noindex डायरेक्टिव (हेडर या टैग) वाले पेजों को इंडेक्स नहीं करता. हालांकि, अगर किसी पेज को robots.txt फ़ाइल, लॉगिन पेज या किसी दूसरे डिवाइस से ब्लॉक किया गया है, तो Google को इसका डायरेक्टिव दिखना चाहिए. हो सकता है कि Google किसी पेज पर गए बिना भी उसे इंडेक्स कर ले.

इंडेक्स करवाने के लिए अपने पेज को बेहतर बनाना

यहां बताई गई तकनीकों का इस्तेमाल करके, अपने पेज के कॉन्टेंट को बेहतर तरीके से समझने में, Google की मदद करें:

"दस्तावेज़" क्या होता है?

Google, अंदरूनी रूप से वेब को दस्तावेज़ के बहुत बड़े सेट के तौर पर दिखाता है. हर दस्तावेज़, एक या इससे ज़्यादा वेब पेज दिखाता है. ये पेज एक जैसे या मिलते-जुलते होते हैं, लेकिन इनमें कॉन्टेंट एक जैसा ही होता है, जिन पर अलग-अलग यूआरएल से पहुंचा जा सकता है. किसी दस्तावेज़ के अलग-अलग यूआरएल एक ही पेज पर ले जा सकते हैं. उदाहरण के लिए, example.com/dresses/summer/1234 और example.com?product=1234 एक ही पेज दिखा सकते हैं या फिर अलग-अलग डिवाइसों के उपयोगकर्ताओं के हिसाब से थोड़े वैरिएशन के साथ, उसी पेज पर भी ले जा सकते हैं. उदाहरण के लिए, डेस्कटॉप उपयोगकर्ताओं के लिए example.com/mypage और मोबाइल उपयोगकर्ताओं के लिए m.example.com/mypage, दोनों एक ही पेज पर ले जा सकते हैं.

Google, किसी दस्तावेज़ में से कोई यूआरएल चुनता है और उसे दस्तावेज़ के कैननिकल यूआरएल के तौर पर बताता है. दस्तावेज़ का कैननिकल यूआरएल, वह यूआरएल होता है जिसे Google सबसे ज़्यादा बार क्रॉल और इंडेक्स करता है. दूसरे यूआरएल डुप्लीकेट या वैकल्पिक माने जाते हैं. उन्हें उपयोगकर्ता के अनुरोध के हिसाब से, समय-समय पर क्रॉल किया या दिखाया जा सकता है. उदाहरण के लिए, अगर किसी दस्तावेज़ का कैननिकल यूआरएल एक मोबाइल यूआरएल है, तब भी संभावना है कि Google, डेस्कटॉप पर खोजने वाले उपयोगकर्ताओं के लिए डेस्कटॉप (वैकल्पिक) यूआरएल ही दिखाएगा.

Search Console में ज़्यादातर रिपोर्ट, दस्तावेज़ के कैननिकल यूआरएल के डेटा से तैयार होती हैं. कुछ टूल (जैसे, यूआरएल जांचने वाला टूल), वैकल्पिक यूआरएल की जांच करने की सुविधा देते हैं. हालांकि, कैननिकल यूआरएल की जांच करने पर ही वैकल्पिक यूआरएल के बारे में भी जानकारी मिल जानी चाहिए.

Google को यह बताया जा सकता है कि आपको किस यूआरएल को कैननिकल बनाना है. हालांकि, Google कोई और कैननिकल यूआरएल चुन सकता है और इसकी कई वजहें हो सकती हैं.

यहां कुछ शब्दों के बारे में खास जानकारी दी गई है. साथ ही, उन्हें Search Console में इस्तेमाल करने का तरीका भी बताया गया है:

  • दस्तावेज़: मिलते-जुलते पेजों का संग्रह. इसमें कैननिकल यूआरएल होता है और अगर आपकी साइट में डुप्लीकेट पेज हैं, तो अन्य यूआरएल हो सकते हैं. दस्तावेज़ में मौजूद यूआरएल, एक जैसे या दूसरे संगठन (रूट डोमेन, जैसे कि www.google.com में "google") से हो सकते हैं. Google, सबसे अच्छे यूआरएल को Search के नतीजों में दिखाता है. यह उपयोगकर्ता के डिवाइस (मोबाइल/डेस्कटॉप), उसकी भाषा या जगह की जानकारी, और कई दूसरे वैरिएबल के हिसाब से तय किया जाता है. Google, ऑर्गैनिक क्रॉलिंग या साइट में लागू की गई रीडायरेक्ट या <link rel=alternate/canonical> टैग जैसी सुविधाओं की मदद से, उपयोगकर्ता के सवालों से मिलते-जुलते पेज आपकी साइट पर खोजता है. दूसरे डोमेन के मिलते-जुलते पेजों को तब ही वैकल्पिक के तौर पर मार्क किया जा सकता है, जब उन्हें साफ़ तौर पर आपकी साइट के ज़रिए (रीडायरेक्ट या लिंक टैग की मदद से) कोड किया गया हो.
  • यूआरएल: किसी साइट पर कॉन्टेंट के दिए गए हिस्से तक पहुंचने के लिए, यूआरएल इस्तेमाल किया जाता है.
  • पेज: ऐसा वेब पेज जिस पर एक या एक से ज़्यादा यूआरएल से पहुंचा जा सकता है. ऐसे में, उपयोगकर्ता के प्लैटफ़ॉर्म (मोबाइल, डेस्कटॉप, टैबलेट वगैरह) के हिसाब से, पेज के अलग-अलग वर्शन हो सकते हैं.
  • वर्शन: पेज का एक वर्शन "मोबाइल," "डेस्कटॉप," और "एएमपी" हो सकता है. हालांकि, एएमपी के भी मोबाइल और डेस्कटॉप वर्शन हो सकते हैं. हर वर्शन का यूआरएल अलग-अलग (example.com बनाम m.example.com) या एक जैसा हो सकता है. यह साइट के कॉन्फ़िगरेशन के हिसाब से होता है. अगर आपकी साइट डाइनैमिक सर्विंग या रिस्पॉन्सिव वेब डिज़ाइन (स्क्रीन के हिसाब से साइज़ बदलने वाला वेब डिज़ाइन) का इस्तेमाल करती है, तो वही यूआरएल एक ही पेज के अलग-अलग वर्शन दिखा सकता है. एक ही कॉन्टेंट के अलग-अलग भाषाओं वाले पेजों को अलग वर्शन नहीं माना जाता है. उन्हें अलग-अलग दस्तावेज़ माना जाता है.
  • कैननिकल पेज या यूआरएल: वह यूआरएल जिसे Google, दस्तावेज़ का सबसे सही प्रतिनिधि मानता है. Google हमेशा इस यूआरएल को क्रॉल करता है. दस्तावेज़ के डुप्लीकेट यूआरएल भी कभी-कभी क्रॉल किए जाते हैं.
  • वैकल्पिक/डुप्लीकेट पेज या यूआरएल:दस्तावेज़ का वह यूआरएल जिसे Google कभी-कभी क्रॉल कर सकता है. अगर ये यूआरएल, उपयोगकर्ता और उसके अनुरोध के हिसाब से सही होते हैं, तो Google इन्हें भी दिखाता है. उदाहरण के लिए, डेस्कटॉप उपयोगकर्ताओं के अनुरोध पर, कैननिकल मोबाइल यूआरएल के बजाय, डेस्कटॉप के लिए बना वैकल्पिक यूआरएल ही भेजा जाएगा.
  • साइट: आम तौर पर, इसे वेबसाइट (सैद्धांतिक रूप से मिलते-जुलते वेब पेजों का सेट) के एक समानार्थी के रूप में इस्तेमाल किया जाता है, लेकिन कभी-कभी इसे Search Console की प्रॉपर्टी के समानार्थी के रूप में भी इस्तेमाल किया जाता है. हालांकि, किसी प्रॉपर्टी को सिर्फ़ साइट के एक हिस्से के तौर पर ही बताया जा सकता है. अगर साइट के पास, ठीक से लिंक किए गए एएमपी पेज हों, तो वह सबडोमेन और यहां तक कि डोमेन भी जोड़ सकती है.

नतीजे दिखाना

जब कोई उपयोगकर्ता क्वेरी डालता है, तो हमारी मशीनें इंडेक्स में, मिलते-जुलते पेजों को खोजती हैं और उन नतीजों को दिखाती हैं जिन्हें हम उपयोगकर्ता के लिए सबसे ज़्यादा काम का मानते हैं. क्वेरी से मिलते-जुलते नतीजे ढूंढते समय, सैकड़ों चीज़ों को ध्यान में रखा जाता है. हम हमेशा अपने एल्गोरिदम को बेहतर बनाने के लिए काम करते रहते हैं. Google, नतीजे चुनने और उन्हें दिखाने का क्रम तय करने के लिए, उपयोगकर्ता अनुभव को ध्यान में रखता है. इसलिए, पक्का करें कि आपका पेज तेज़ी से लोड हो और मोबाइल-फ़्रेंडली हो.

नतीजों में दिखाने के लिए, अपने पेज को बेहतर बनाना

आप अपने पेज को कई तरह से बेहतर बना सकते हैं, ताकि Google आपके पेज का कॉन्टेंट वेब पर दिखा सके: