robots.txt सही नहीं है

robots.txt फ़ाइल से सर्च इंजन को यह पता चलता है कि वे आपकी साइट के किन पेजों को क्रॉल कर सकते हैं. robots.txt के अमान्य कॉन्फ़िगरेशन की वजह से, दो तरह की समस्याएं हो सकती हैं:

  • यह सर्च इंजन को सार्वजनिक पेजों को क्रॉल करने से रोक सकता है, जिससे खोज नतीजों में आपका कॉन्टेंट कम बार दिखता है.
  • इससे सर्च इंजन उन पेजों को क्रॉल कर सकते हैं जिन्हें शायद आप खोज के नतीजों में न दिखाना चाहें.

Lighthouse robots.txt का ऑडिट कैसे फ़ेल हो जाता है

Lighthouse फ़्लैग अमान्य है robots.txt फ़ाइलें:

लाइटहाउस ऑडिट में अमान्य robots.txt दिख रहा है

आपके robots.txt में क्या गड़बड़ी है, यह जानने के लिए अपनी रिपोर्ट में robots.txt मान्य नहीं है ऑडिट को बड़ा करें.

सामान्य गड़बड़ियों में ये शामिल हैं:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

लाइटहाउस यह जांच नहीं करता कि आपकी robots.txt फ़ाइल सही जगह पर है या नहीं. ठीक से काम करने के लिए, फ़ाइल आपके डोमेन या सबडोमेन के रूट में होनी चाहिए.

robots.txt से जुड़ी समस्याएं कैसे ठीक करें

पक्का करें कि robots.txt एचटीटीपी 5XX स्टेटस कोड न दिखाता हो

अगर आपका सर्वर robots.txt के लिए सर्वर की गड़बड़ी (500 के दशक में एचटीटीपी स्टेटस कोड) दिखाता है, तो सर्च इंजन को यह नहीं पता चलेगा कि किन पेजों को क्रॉल किया जाना चाहिए. वे आपकी पूरी साइट को क्रॉल करना बंद कर सकते हैं, जिससे नया कॉन्टेंट इंडेक्स नहीं हो पाएगा.

एचटीटीपी स्टेटस कोड देखने के लिए, Chrome में robots.txt खोलें और Chrome DevTools में अनुरोध देखें.

robots.txt को 500 केबी से कम रखें

अगर फ़ाइल का साइज़ 500 KiB से ज़्यादा है, तो सर्च इंजन robots.txt को बीच में ही प्रोसेस करना बंद कर सकते हैं. इससे सर्च इंजन उलझन में पड़ सकता है और आपकी साइट को गलत तरीके से क्रॉल किया जा सकता है.

robots.txt को छोटा रखने के लिए, अलग-अलग शामिल न किए गए पेजों पर कम ध्यान दें और बड़े पैटर्न पर ज़्यादा ध्यान दें. उदाहरण के लिए, अगर आपको PDF फ़ाइलों को क्रॉल करने से रोकना है, तो हर फ़ाइल को क्रॉल करने की अनुमति न दें. इसके बजाय, disallow: /*.pdf का इस्तेमाल करके .pdf वाले सभी यूआरएल पर रोक लगाएं.

फ़ॉर्मैट की सभी गड़बड़ियां ठीक करना

  • robots.txt में सिर्फ़ खाली लाइनों, टिप्पणियों, और "नाम: वैल्यू" फ़ॉर्मैट से मेल खाने वाले डायरेक्टिव की अनुमति है.
  • पक्का करें कि allow और disallow वैल्यू खाली हों या / या * से शुरू हों.
  • वैल्यू के बीच में $ का इस्तेमाल न करें. जैसे, allow: /file$html.

पक्का करें कि user-agent के लिए एक वैल्यू हो

उपयोगकर्ता-एजेंट के नाम, ताकि सर्च इंजन के क्रॉलर को यह बताया जा सके कि किन निर्देशों का पालन करना है. आपको user-agent के हर इंस्टेंस के लिए एक वैल्यू देनी होगी, ताकि सर्च इंजन को पता चल सके कि निर्देशों के साथ जुड़े सेट का पालन करना है या नहीं.

किसी खास सर्च इंजन क्रॉलर के बारे में बताने के लिए, उसकी पब्लिश की गई सूची में से उपयोगकर्ता-एजेंट का नाम इस्तेमाल करें. (उदाहरण के लिए, यहां क्रॉल करने के लिए इस्तेमाल किए जाने वाले उपयोगकर्ता-एजेंट की Google की सूची दी गई है.)

अन्य सभी बेमेल क्रॉलर से मिलान करने के लिए * का इस्तेमाल करें.

यह न करें
user-agent:
disallow: /downloads/

कोई उपयोगकर्ता एजेंट तय नहीं किया गया है.

ऐसा करें
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

सामान्य उपयोगकर्ता एजेंट और magicsearchbot उपयोगकर्ता एजेंट को तय किया जाता है.

पक्का करें कि user-agent से पहले, allow या disallow कोई निर्देश न हो

उपयोगकर्ता-एजेंट के नाम, आपकी robots.txt फ़ाइल के सेक्शन के बारे में बताते हैं. सर्च इंजन क्रॉलर उन सेक्शन का इस्तेमाल करके, यह तय करते हैं कि किन निर्देशों का पालन करना है. पहले उपयोगकर्ता-एजेंट के नाम से पहले कोई निर्देश जोड़ने का मतलब है कि कोई भी क्रॉलर उसे फ़ॉलो नहीं करेगा.

यह न करें
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

कोई भी सर्च इंजन क्रॉलर disallow: /downloads डायरेक्टिव को नहीं पढ़ेगा.

ऐसा करें
# start of file
user-agent: *
disallow: /downloads/

सभी सर्च इंजन को, /downloads फ़ोल्डर को क्रॉल करने की अनुमति नहीं है.

सर्च इंजन क्रॉलर, उपयोगकर्ता-एजेंट के सबसे खास नाम वाले सेक्शन में दिए गए निर्देशों का ही पालन करते हैं. उदाहरण के लिए, अगर आपके पास user-agent: * और user-agent: Googlebot-Image के लिए निर्देश हैं, तो Googlebot इमेज सिर्फ़ user-agent: Googlebot-Image सेक्शन के निर्देशों का पालन करेगी.

sitemap के लिए पूरा यूआरएल दें

साइटमैप फ़ाइलें, सर्च इंजन को आपकी वेबसाइट के पेजों के बारे में बताने का एक बेहतरीन तरीका है. आम तौर पर, साइटमैप फ़ाइल में आपकी वेबसाइट के यूआरएल की सूची होती है. इसमें यह जानकारी भी होती है कि यूआरएल में पिछली बार कब बदलाव किया गया था.

अगर आपको robots.txt में साइटमैप फ़ाइल सबमिट करनी है, तो पक्का करें कि आप एब्सलूट यूआरएल का इस्तेमाल करें.

यह न करें
sitemap: /sitemap-file.xml
ऐसा करें
sitemap: https://example.com/sitemap-file.xml

संसाधन