इंडेक्स करने में गड़बड़ी होने पर: इंडेक्स करने में हुई गड़बड़ियों को Google Search ने कैसे ठीक किया और इससे हमने क्या सीखा

सोमवार, 12 अगस्त, 2019

ज़्यादातर समय, हमारा सर्च इंजन ठीक तरह से काम करता है. तकनीकी समस्याओं से बचने के लिए, हमारी टीमें काफ़ी मेहनत करती हैं. इन समस्याओं का असर हमारे ऐसे उपयोगकर्ताओं पर हो सकता है जो वेब पर कुछ खोज रहे हैं. इसके अलावा, इनका असर ऐसे वेबमास्टर पर भी हो सकता है जिनकी साइटें हम इंडेक्स करते हैं और लोगों को दिखाते हैं. इसी तरह, सर्च इंजन के लिए हम जिन सिस्टम का इस्तेमाल करते हैं वे ज़्यादातर समय ठीक तरह से काम करते हैं. जब गड़बड़ियां छोटी होती हैं, तो वे हमारी कुछ खास टीमों के अलावा किसी और को नहीं दिखतीं. ये टीमें यह पक्का करती हैं कि हमारे प्रॉडक्ट बिना किसी रुकावट के ठीक तरह से काम करें. हालांकि, बाकी जटिल सिस्टम की तरह कभी-कभी ऐसी गड़बड़ी होती है जिसका असर बड़े पैमाने पर होता है. इसकी वजह से साइट पर आने वाले लोगों और वेबसाइट बनाने वालों को परेशानी का सामना करना पड़ सकता है.

पिछले कुछ महीनों में, वेबसाइट को इंडेक्स करने वाले हमारे सिस्टम में ऐसी ही एक गड़बड़ी आ गई थी. इसका असर हमारे इंफ़्रास्ट्रक्चर के कुछ हिस्सों पर लंबे समय तक रहा. हालांकि, हमने समस्या को ठीक करने के लिए तेज़ी से काम किया. इस रुकावट के लिए हम माफ़ी चाहते हैं, क्योंकि हमारा मकसद अपने उपयोगकर्ताओं और वेब नेटवर्क को अच्छी क्वालिटी के प्रॉडक्ट मुहैया कराना है.

तब से हम समस्या पर काफ़ी गंभीरता और ध्यान से नज़र रखते हैं. इस प्रक्रिया के दौरान, हमें कुछ नई चीज़ों के बारे में पता चला है जिसे आज हम आपके साथ शेयर करना चाहते हैं. इस ब्लॉग पोस्ट में, हम आपको समस्या के बारे में जानकारी देंगे. साथ ही, यह भी बताएंगे कि अगर आने वाले समय में ऐसी समस्या फिर से होती है, तो हम आपको इस बारे में कैसे बेहतर जानकारी दे सकते हैं. इसके अलावा, हम हमसे संपर्क करने के, वेबसाइट के मालिकों के तरीकों के बारे में भी बताएंगे.

कुछ महीने पहले क्या हुआ था?

अप्रैल में, हमें इंडेक्स करने से जुड़ी कुछ समस्याओं का पता चला. Search इंडेक्स, एक तरह का डेटाबेस होता है जिसमें अरबों वेब पेजों की जानकारी मौजूद होती है. ये ऐसे वेब पेज हैं जिन्हें हमने वेब पर क्रॉल किया है और हमें लगता है कि ये हमारे उपयोगकर्ताओं की कुछ क्वेरी का जवाब दे सकते हैं. जब कोई उपयोगकर्ता Google के सर्च इंजन में कोई क्वेरी डालता है, तब पेजों की रैंकिंग तय करने वाले हमारे एल्गोरिदम, Search इंडेक्स से उन पेजों को क्रम में लगाते हैं. इससे, कुछ ही सेकंड में क्वेरी से मिलते-जुलते और काम के नतीजे मिल जाते हैं. पिछली बार हुई समस्या से जुड़ी जानकारी यहां दी गई है.

1. इंडेक्स करने से जुड़ी समस्या

इसकी शुरुआत ऐसे हुई कि 'सर्च' इंडेक्स के कुछ हिस्से कुछ समय के लिए खो गए.

ज़रा ठहरें... क्या? इसका क्या मतलब है "इंडेक्स का कुछ हिस्सा खो गया?" क्या ऐसा हो सकता है?

दरअसल, लोगों को खोज के नतीजे दिखाते समय, इस सेवा को तेज़ बनाने के लिए, क्वेरी को सिर्फ़ सबसे नज़दीकी डेटा सेंटर में "भेजा" जाता है. ये डेटा सेंटर Google Search के प्रॉडक्ट के साथ काम करते हैं और यहीं से सर्च इंजन के नतीजों वाला पेज (एसईआरपी) जनरेट होता है. इसलिए, जब इंडेक्स के बनाने की प्रक्रिया में कुछ बदलाव होते हैं (जैसे कि कुछ पेज हटाना या जोड़ना, कई दस्तावेज़ों को मिलाकर एक दस्तावेज़ बनाना या डेटा में दूसरे तरीके के बदलाव करना), तब इन डेटा सेंटर में उन बदलावों का दिखना ज़रूरी होता है. इस वजह से, दुनिया भर में लोगों को इंडेक्स के सबसे नए वर्शन में मौजूद पेज दिखाए जाते हैं.

दुनिया भर में ऐसे कई डेटा सेंटर (जैसा कि ऊपर तस्वीर में दिखाया गया है) हैं जिनका मालिक और उन्हें चलाने वाला Google है. इन डेटा सेंटर की ज़िम्मेदारी है कि हमारे प्रॉडक्ट हफ़्ते के सात दिन और दिन के 24 घंटे काम करते रहें
दुनिया भर में ऐसे कई डेटा सेंटर (जैसा कि ऊपर तस्वीर में दिखाया गया है) हैं जिनका मालिक और उन्हें चलाने वाला Google है. इन डेटा सेंटर की ज़िम्मेदारी है कि हमारे प्रॉडक्ट हफ़्ते के सात दिन और दिन के 24 घंटे काम करते रहें - स्रोत

सभी डेटा सेंटर पर एक जैसे इंडेक्स रखना आसान काम नहीं है. उपयोगकर्ताओं से जुड़ी ज़्यादा सेवाओं के लिए, हम किसी एक डेटा सेंटर पर इंडेक्स को अपडेट करना शुरू कर सकते हैं. साथ ही, इसे तब तक जारी रखते हैं, जब तक काम के सभी डेटा सेंटर अपडेट नहीं हो जाते. संवेदनशील जगहों के लिए, हम इंडेक्स अपडेट करने की यह प्रक्रिया कुछ और दिनों तक चला सकते हैं. साथ ही, इंडेक्स अपडेट करने में लगने वाला समय, अलग-अलग इलाकों के हिसाब से अलग-अलग हो सकता है. स्रोत.

इसलिए, जब हमने Search इंडेक्स में कुछ बदलाव करने की योजना बनाई, तब 5 अप्रैल को शुक्रवार के दिन बदलाव करने के दौरान सिस्टम में गड़बड़ हो गई! खास तौर पर: जब हम अपने कुछ डेटा सेंटर में इंडेक्स को अपडेट कर रहे थे, तब गलती से कुछ दस्तावेज़ों को इंडेक्स में शामिल नहीं किया गया. इस वजह से: "हम इंडेक्स के कुछ हिस्से खो चुके हैं."

सबसे अच्छी बात यह है कि कॉल पर मदद करने वाले हमारे इंजीनियर ने इस समस्या को बहुत जल्दी हल कर लिया. यह ठीक उसी समय हुआ जब हमने सोशल मीडिया पर बातचीत शुरू की थी. हम उन सभी लोगों का धन्यवाद करते हैं जिन्होंने हफ़्ते के आखिरी दिन हमें इसकी सूचना दी! इस वजह से, समस्या के बारे में पता चलने के कुछ ही घंटों बाद, हम अपने सभी डेटा सेंटर पर Search इंडेक्स के पुराने स्टेबल वर्शन को वापस ला सके. ऐसी किसी भी समस्या से बचने के लिए, हम अपने इंडेक्स के बैक-अप रखते हैं.

हमने रविवार, 7 अप्रैल को बताया कि हमें इस समस्या के बारे में पता है और हम इसे ठीक कर रहे हैं. डेटा सेंटर धीरे-धीरे एक स्टेबल इंडेक्स पर लौट रहे थे. इसलिए, हम Twitter पर 8 अप्रैल और 9 अप्रैल को अपडेट करते रहे. हम ऐसा तब तक करते रहे, जब तक हमें यह भरोसा नहीं हो गया कि सभी डेटा सेंटर पर 11 अप्रैल तक इंडेक्स का पूरा वर्शन वापस आ गया है.

2. Search Console से जुड़ी समस्या

Search Console, टूल और रिपोर्ट का एक सेट है. इसका इस्तेमाल करके, कोई भी वेबमास्टर Search में अपनी वेबसाइट की परफ़ॉर्मेंस से जुड़ा डेटा ऐक्सेस कर सकता है. उदाहरण के लिए, इससे पता चलता है कि हर दिन ऑर्गैनिक सर्च के नतीजों में, आपकी वेबसाइट को कितने इंप्रेशन और क्लिक मिले. इसके अलावा, इससे यह भी पता चलता है कि Search इंडेक्स से किसी वेबसाइट के किन पेजों को हटाया गया है और किन पेजों को शामिल किया गया है.

Search इंडेक्स में समस्या की वजह से, Search Console में भी डेटा ठीक तरह से नहीं दिख रहा था. ऐसा इसलिए, क्योंकि Search Console में दिखने वाला कुछ डेटा, Search इंडेक्स से ही जनरेट होता है:

  • इंडेक्स कवरेज रिपोर्ट में डेटा तभी ठीक दिखता है, जब सभी डेटा सेंटर पर Search इंडेक्स का एक जैसा वर्शन हो.
  • जब हम Search इंडेक्स में किसी पेज को सेव करते हैं, तब हम उस पेज के बारे में कुछ मुख्य संकेत की व्याख्या करते हैं. जैसे, पेज में ज़्यादा बेहतर नतीजों (रिच रिज़ल्ट) के लिए मार्कअप मौजूद है या नहीं. इसलिए, Search इंडेक्स से जुड़ी किसी समस्या का असर, Search Console में ज़्यादा बेहतर नतीजों (रिच रिज़ल्ट) की रिपोर्ट पर पड़ सकता है.

दरअसल, Search Console में दिखने वाली कई रिपोर्ट, किसी खास डेटाबेस से डेटा जनरेट होती हैं. उस डेटाबेस को कुछ हद तक Search इंडेक्स से मिलने वाली जानकारी इस्तेमाल करके बनाया गया है. Search इंडेक्स के पिछले वर्शन को बहाल करने पर, हमें Search Console के डेटाबेस को अपडेट करने की प्रक्रिया को भी रोकना पड़ा. इस वजह से, कुछ रिपोर्ट में डेटा एक जैसा दिखा. साथ ही, बाकी रिपोर्ट में डेटा गलत दिखा जैसे कि यूआरएल जांचने वाले टूल में.

इंडेक्स किए गए पेजों के लिए, इंडेक्स कवरेज रिपोर्ट में आम तौर पर देखे जाने वाले दो अपडेट के बीच, एक लंबा समय देखा जा सकता है. जैसा कि ऊपर दिए गए उदाहरण में, Search Console में अप्रैल 2019 में डेटा के सही तरह से दिखने की समस्या के बारे में बताया गया है.
इंडेक्स किए गए पेजों के लिए, इंडेक्स कवरेज रिपोर्ट में आम तौर पर देखे जाने वाले दो अपडेट के बीच, एक लंबा समय देखा जा सकता है. जैसा कि ऊपर दिए गए उदाहरण में, Search Console में अप्रैल 2019 में डेटा के सही तरह से दिखने की समस्या के बारे में बताया गया है.

Search इंडेक्स से जुड़ी सभी समस्याओं को पूरी तरह बहाल होने में कुछ दिन लग गए (जैसा कि ऊपर बताया गया है). इस वजह से, इंडेक्स करने से जुड़ी समस्याओं को ठीक करने के बाद ही हमने Search Console के डेटाबेस से जुड़ी समस्या को हल करने पर ध्यान देना शुरू किया. हमने लोगों को 15 अप्रैल को ट्वीट करके सूचना दी थी कि Search Console में कुछ समस्या आ रही है और हम इसे ठीक करने के लिए काम कर रहे हैं. साथ ही, हमने 28 अप्रैल को समस्या ठीक कर दी थी (इस दिन रिपोर्ट में सही डेटा फिर से दिखने लगा था, ऊपर दिया गया ग्राफ़ देखें). हमने 30 अप्रैल को Twitter पर लोगों को सूचना दी थी कि समस्या ठीक कर दी गई है ट्वीट.

3. इंडेक्स करने से जुड़ी मुख्य गड़बड़ी के अलावा दूसरी समस्याएं

Google Search कई सारे सिस्टम का इस्तेमाल करता है, जो एक साथ काम करते हैं. हालांकि, कुछ सिस्टम एक-दूसरे के साथ काफ़ी ज़्यादा लिंक हो सकते हैं. साथ ही, कुछ मामलों में, सिस्टम के कुछ हिस्सों में एक ही समय पर अलग-अलग समस्या आ जाती है.

उदाहरण के लिए इस मामले में, जिस समय इंडेक्स करने जुड़ी ऊपर बताई गई मुख्य गड़बड़ी आई, ठीक उसी समय हमें Google News में नया कॉन्टेंट इकट्ठा करने में भी समस्याएं आई. इसके अलावा, पेजों को रेंडर करते समय कुछ यूआरएल, Googlebot को दूसरे पेजों पर रीडायरेक्ट करने लगे थे. इन समस्याओं का, इंडेक्स करने से जुड़ी गड़बड़ी से कोई संबंध नहीं था और इन्हें तुरंत ठीक कर दिया गया था (जैसा कि पहले ट्वीट और दूसरे ट्वीट में बताया गया है).

हमारी ओर से दी गई जानकारी और हमारी सेवाओं को बेहतर बनाने के लिए उठाए गए कदम

सोशल मीडिया पर सूचना देने के साथ ही (जैसे कि ऊपर बताया गया है), उन हफ़्तों में हमने वेबमास्टर को दो और तरीकों से समस्या की जानकारी दी थी: यह जानकारी हमने Search Console के साथ- साथ, Search Console सहायता केंद्र के ज़रिए दी.

Search Console के सहायता केंद्र में

समस्या का पता चलने के बाद, हमने "Search Console में डेटा की गड़बड़ियों" के सहायता पेज को अपडेट किया. यह मुमकिन है कि किसी समस्या का असर, बड़ी संख्या में वेबसाइट के मालिकों पर पड़े. ऐसे में, हम इस पेज का इस्तेमाल Search Console की सेवाओं में आई रुकावट के बारे में जानकारी देने के लिए करते हैं.

Search Console में

हम जानते हैं कि हमारे सभी उपयोगकर्ता सोशल मीडिया या सहायता केंद्र से जुड़े बाहरी पेज नहीं पढ़ते. इसलिए, हमने Search Console की रिपोर्ट में समस्या के बारे में जानकारी जोड़ी थी, ताकि लोगों को बता सकें कि दिखने देने वाला डेटा शायद सटीक न हो. इसके बारे में जानने के लिए यहां दी गई इमेज देखें. गड़बड़ियों के ठीक होने के बाद, हमने यह जानकारी रिपोर्ट में जोड़ी थी. "ज़्यादा जानकारी के लिए यहां देखें" पर क्लिक करने से, लोग सहायता केंद्र के "डेटा की अनियमितता" पेज पर पहुंच जाते हैं.

इंडेक्स किए जा चुके पेजों की इंडेक्स कवरेज रिपोर्ट में, डेटा की जानकारी का उदाहरण मौजूद होता है. इसका इस्तेमाल लोगों को कुछ खास समस्याओं के बारे में बताने के लिए किया जा सकता है.
इंडेक्स किए जा चुके पेजों की इंडेक्स कवरेज रिपोर्ट में, डेटा की जानकारी का उदाहरण मौजूद होता है. इसका इस्तेमाल लोगों को कुछ खास समस्याओं के बारे में बताने के लिए किया जा सकता है.

आने वाले समय में आपसे संपर्क करने के बारे में जानकारी

Google में कोई समस्या आने पर, हमारा मकसद उस समस्या की "जड़" तक जाना होता है: समस्या के बारे में जानकारी इकट्ठा करने के लिए, एक दस्तावेज़ बनाना हैं और इसे फिर से होने से रोकने की कोशिश करना. इस पूरी प्रोसेस के बारे में Google साइट विश्वसनीयता इंजीनियरिंग की वेबसाइट पर ज़्यादा जानकारी दी गई है.

अप्रैल में हुई इंडेक्स करने से जुड़ी समस्या के दौरान, हमने इस बात पर गौर किया कि अगर समस्या का असर बड़े पैमाने पर होता है, तो हम वेबमास्टर से बेहतर तरीके से कैसे संपर्क कर सकते हैं. हमारे मुख्य फ़ैसले थे:

  1. Search Console में बड़े पैमाने पर होने वाली किसी गड़बड़ी के बारे में ज़्यादा तेज़ी से जानकारी शेयर करने के नए तरीके ढूंढना. साथ ही, वेबमास्टर के लिए मुख्य जानकारी के रूप में यह जानकारी दिखाना, ताकि जब उन्हें कोई गड़बड़ लगे, तब वे यह जानकारी पढ़ सकें.
  2. ज़रूरत पड़ने पर, Search Console में डेटा की समस्याओं वाले पेज पर तुरंत जानकारी पोस्ट करना (अगर Search Console में समस्या की वजह से डेटा पर ज़्यादा लंबे समय तक असर पड़ रहा है)
  3. लगातार और जल्दी-जल्दी ट्वीट करना, ताकि हम वेबमास्टर को बता सकें कि हमें समस्याओं के बारे में पता है और हम इसे ठीक करने के लिए काम कर रहे हैं.

ये तरीके अपनाने से, आने वाले समय में होने वाली ऐसी कोई भी स्थिति वेबमास्टर के लिए ज़्यादा पारदर्शी बन जाएगी.

समस्याएं ठीक करने के लिए कार्रवाई करना: "नए यूआरएल इंडेक्स नहीं किए गए" केस स्टडी

हमें 22 मई को एक और समस्या का सामना करना पड़ा और इस दौरान, हमने वेबमास्टर से संपर्क करने के अपने नए तरीकों की जांच की. समस्या से जुड़ी जानकारी: कुछ खास यूआरएल प्रोसेस करने के दौरान, इंफ़्रास्ट्रक्चर अपग्रेड करने के बाद हमारे डुप्लीकेट मैनेजमेंट सिस्टम की स्टोरेज भर गई. इसकी वजह से यूआरएल प्रोसेस नहीं किए जा सके.

ऊपर बताई गई तीन बातों के बाद, यहां एक समयावधि दी गई है. इससे पता चलता है कि हमने संपर्क करने के नए तरीकों के बारे में कैसे सोचा:

  1. हमें समस्या के बारे में, कैलिफ़ोर्निया के समय के हिसाब से 22 मई को सुबह 5.30 बजे के आस-पास पता चला.
    हमने कैलिफ़ोर्निया के समय के हिसाब से, 22 मई को सुबह 6.40 बजे के आस-पास, मौजूदा समस्या के बारे में ट्वीट किया.
    हमने कैलिफ़ोर्निया के समय के हिसाब से, 22 मई को रात 10 बजे के आस-पास समस्या के ठीक होने के बारे में ट्वीट किया
  2. हमने सहायता केंद्र पर "डेटा की अनियमितता" पेज को अपडेट करने के बारे में सोचा. हालांकि, हमने ऐसा नहीं किया, क्योंकि हमें उम्मीद थी कि इस समस्या का असर वेबमास्टर के Search Console के ज़्यादातर डेटा पर नहीं पड़ेगा.
  3. इस समस्या ने, कई लोगों के लिए जो भ्रम की स्थिति पैदा की उससे हमारे पहले के नतीजों की पुष्टि हुई. हम Search Console में ऐसे संकेत देखना चाहते थे जिससे यह पुष्टि हो जाए कि हमारे किसी सिस्टम में कोई गड़बड़ी है, जिसका असर बड़े पैमाने पर वेबमास्टर पर पड़ सकता है. हालांकि, इस तरह समस्या ठीक करने में ज़्यादा समय लग सकता है. जैसे ही हमें कुछ और जानकारी मिलेगी, हम आपको आने वाले समय में इस विषय के बारे में सूचना देंगे.

पिछले हफ़्ते, इंडेक्स करने से जुड़ी हमें एक और समस्या आई थी. हमने 22 मई की तरह, ट्वीट करके लोगों को बताया कि कोई समस्या हुई है और हम उसे ठीक करने के लिए काम कर रहे हैं. साथ ही, हमने यह भी बताया कि समस्या कब तक हल होगी.

डीबग करने और हमसे संपर्क करने का तरीका

हम उम्मीद करते हैं कि इस पोस्ट से आपको पता चल गया होगा कि हमारे सिस्टम कितने जटिल हैं और कभी-कभी इनमें गड़बड़ भी हो सकती है. साथ ही, आपको यह भी पता चल गया होगा कि ऐसी समस्याओं के बारे में हम आपसे कैसे संपर्क कर सकते हैं. इस पोस्ट से, हमारे सिस्टम में हुई गड़बड़ी के बारे में जानकारी मिलती है. हालांकि, यह ज़रूरी है कि आप इस बात का ध्यान रखें कि वेबसाइट को इंडेक्स करने में होने वाली ज़्यादातर समस्याएं, वेबसाइट की कॉन्फ़िगरेशन की वजह से होती हैं. इसकी वजह से Google Search को, वेबसाइट को ठीक तरह से इंडेक्स करने में समस्याएं हो सकती हैं. ऐसे मामलों में, सभी वेबमास्टर Search Console और हमारे सहायता केंद्र की मदद से, समस्याओं को डीबग कर सकते हैं. ऐसा करने के बाद, अगर आपको फिर भी लगता है कि यह समस्या आपकी वेबसाइट की वजह से नहीं है या आपको नहीं पता कि इसे कैसे ठीक करना है, तो हमसे और हमारी कम्यूनिटी से संपर्क करें. हम हमेशा अपने उपयोगकर्ताओं की राय लेना पसंद करते हैं. हमें किसी समस्या के बारे में बताने का तरीका:

  • हमारी वेबमास्टर कम्यूनिटी पर जाएं. कभी-कभी दूसरे वेबमास्टर कोई ऐसी समस्या हाइलाइट कर देते हैं जिससे आपकी साइट पर भी असर पड़ सकता है.
  • आमने-सामने बातचीत! हमें आपसे बात करके खुशी होगी. इवेंट में शामिल हों और हमसे बात करें.
  • हमारे प्रॉडक्ट की मदद से हमसे संपर्क करें! Search Console में मौजूद, सुझाव भेजने वाला टूल हमारी टीमों के लिए काफ़ी मददगार है.
  • Twitter और YouTube!