robots.txt फ़ाइल के बारे में जानकारी

robots.txt फ़ाइल की मदद से, सर्च इंजन के क्रॉलर को यह जानकारी मिलती है कि क्रॉलर आपकी साइट के किन यूआरएल को ऐक्सेस कर सकता है. इसका इस्तेमाल खास तौर पर इसलिए किया जाता है, ताकि आपकी साइट पर अनुरोधों का लोड ज़्यादा न हो जाए. Google को वेब पेज क्रॉल करने से रोकने के लिए, इसका इस्तेमाल नहीं किया जाता. Google को वेब पेज क्रॉल करने से रोकने के लिए, noindex का इस्तेमाल करके इंडेक्स करने पर रोक लगाएं या पेज को पासवर्ड से सुरक्षित करें.

robots.txt फ़ाइल क्यों इस्तेमाल की जाती है?

robots.txt फ़ाइल का इस्तेमाल खास तौर पर, आपकी साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए किया जाता है. आम तौर पर, फ़ाइल के टाइप के आधार पर, Google से फ़ाइल काे क्रॉल या इंडेक्स न कराने के लिए भी ऐसा किया जाता है:

अलग-अलग फ़ाइल टाइप पर robots.txt फ़ाइल का असर
वेब पेज

अगर आपको लगता है कि Google के क्रॉलर के अनुरोधों से आपके सर्वर पर लोड बढ़ जाएगा, तो क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, वेब पेजों (जैसे, एचटीएमएल, PDF या बिना किसी मीडिया वाले पेज के ऐसे अन्य फ़ॉर्मैट जिन्हें Google क्रॉल कर सकता है) पर robots.txt फ़ाइल का इस्तेमाल किया जा सकता है. इसके अलावा, साइट के एक जैसे या गै़र-ज़रूरी पेजों को क्रॉल करने से रोकने के लिए भी इसका इस्तेमाल किया जा सकता है.

अगर आपके वेब पेज पर robots.txt फ़ाइल के ज़रिए रोक लगी है, तब भी इसका यूआरएल खोज के नतीजाें में दिख सकता है. हालांकि, खोज के नतीजे में पेज की कोई जानकारी नहीं दिखेगी. वेब पेज में मौजूद इमेज फ़ाइलें, वीडियो फ़ाइलें, और PDF के साथ-साथ वे फ़ाइलें भी नहीं दिखेंगी जो एचटीएमएल नहीं हैं. अगर आपको खोज के नतीजों में अपने पेज के लिए इस तरह का कोई नतीजा दिखता है और आपको इसे ठीक करना है, तो पेज पर राेक लगाने वाली robots.txt फ़ाइल को हटा दें. अगर आपको अपने पेज को Search में दिखने से पूरी तरह रोकना है, तो दूसरा तरीका इस्तेमाल करें.

मीडिया फ़ाइल

साइट पर आने वाले क्रॉलर के ट्रैफ़िक को मैनेज करने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. इसकी मदद से, इमेज, वीडियो, और ऑडियो फ़ाइलों को Google के खोज नतीजों में दिखने से भी रोका जा सकता है. हालांकि, इसके इस्तेमाल से अन्य पेज या उपयोगकर्ताओं को, अपनी इमेज, वीडियो या ऑडियो फ़ाइल को लिंक करने से नहीं रोका जा सकता.

रिसॉर्स फ़ाइल अगर आपको लगता है कि गै़र-ज़रूरी इमेज, स्क्रिप्ट या स्टाइल फ़ाइलों जैसे रिसॉर्स के बिना पेज को लोड करने से, पेज पर कोई खास असर नहीं पड़ेगा, तो इन रिसॉर्स फ़ाइलों पर रोक लगाने के लिए, robots.txt फ़ाइल का इस्तेमाल करें. हालांकि, अगर इन रिसॉर्स के बिना Google के क्रॉलर को पेज का कॉन्टेंट समझने में मुश्किल होती है, तो उन पर रोक न लगाएं. इस तरह की रोक लगाने से, Google उन पेजों का ठीक से विश्लेषण नहीं कर पाएगा जो ऐसे रिसॉर्स से डेटा लेते हैं.

यह समझना कि robots.txt फ़ाइल कब काम करती है और कब नहीं

robots.txt फ़ाइल बनाने या उसमें बदलाव करने से पहले, आपको यह पता होना चाहिए कि यूआरएल पर रोक लगाने वाला यह तरीका, कब काम करता है और कब नहीं. अपने लक्ष्यों और स्थिति के आधार पर, अपने यूआरएल को वेब पर खोज में दिखने से रोकने के लिए, आपको अन्य तरीकों की भी ज़रूरत पड़ सकती है.

  • ऐसा हो सकता है कि robots.txt के डायरेक्टिव सभी सर्च इंजन पर काम न करें.
    robots.txt फ़ाइलों में दिए गए निर्देश, आपकी साइट पर क्रॉलर के काम करने के तरीके पर लागू नहीं होते. इन निर्देशों के हिसाब से काम करना या न करना, क्रॉलर पर निर्भर करता है. Googlebot और अन्य जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए निर्देशों के हिसाब से काम करते हैं. हालांकि, यह ज़रूरी नहीं है कि दूसरे वेब क्रॉलर भी ऐसा करें. इसलिए, अगर आपको कोई जानकारी क्रॉल नहीं करानी है, तो वेब क्रॉलर पर रोक लगाने के अन्य तरीकों का इस्तेमाल करें. जैसे, सर्वर पर मौजूद निजी फ़ाइलों को पासवर्ड की मदद से सुरक्षित करना.
  • अलग-अलग क्रॉलर, सिंटैक्स को समझने के लिए अलग-अलग तरीके अपनाते हैं.
    हालांकि जाने-माने वेब क्रॉलर, robots.txt फ़ाइल में दिए गए डायरेक्टिव को फ़ॉलो करते हैं, लेकिन हर क्रॉलर डायरेक्टिव को अलग तरह से समझ सकता है. आपके पास अलग-अलग वेब क्रॉलर के लिए, सही सिंटैक्स की जानकारी होनी चाहिए. ऐसा हो सकता है कि कुछ वेब क्रॉलर, कुछ खास तरह के निर्देश न समझ पाएं.
  • अगर किसी पेज को दूसरी साइटों से लिंक किया गया है, तो robots.txt फ़ाइल में शामिल नहीं किए जाने पर भी उस पेज को इंडेक्स किया जा सकता है.
    Google, robots.txt फ़ाइल का इस्तेमाल करके ब्लॉक किए गए कॉन्टेंट को क्रॉल या इंडेक्स नहीं करता. अगर ब्लॉक किए गए यूआरएल को वेब पर दूसरी साइटों से लिंक किया गया है, तो उसे खोजा और इंंडेक्स किया जा सकता है. इस वजह से, यूआरएल पता और पेज के लिंक में ऐंकर टेक्स्ट जैसी सार्वजनिक तौर पर मिलने वाली अन्य जानकारी, अब भी Google के खोज नतीजों में दिख सकती है. अपने यूआरएल को Google के खोज नतीजों में दिखने से रोकने के लिए, अपने सर्वर पर मौजूद फ़ाइलों को पासवर्ड से सुरक्षित करें या noindex मेटा टैग या रिस्पॉन्स हेडर का इस्तेमाल करें. इसके अलावा, पेज को पूरी तरह से हटाया भी जा सकता है.

कोई robots.txt फ़ाइल बनाना या किसी robots.txt फ़ाइल को अपडेट करना

अगर आपने तय कर लिया है कि आपको robots.txt फ़ाइल की ज़रूरत है, तो robots.txt फ़ाइल बनाने का तरीका जानें. अगर आपके पास पहले से कोई robots.txt फ़ाइल है, तो उसे अपडेट करने का तरीका जानें.