robots.txt से जुड़े काम के नियम
यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:
| काम आने वाले नियम | |
|---|---|
| पूरी साइट को क्रॉल करने की अनुमति न दें |
ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों. User-agent: * Disallow: / |
पूरी साइट को क्रॉल करने की अनुमति दें (Disallow नियम को खाली छोड़कर)
|
इससे सभी क्रॉलर को पूरी साइट ऐक्सेस करने की अनुमति मिलती है. इसका सीधा मतलब है यह कि कोई robots.txt फ़ाइल मौजूद नहीं है या User-agent: * Disallow: |
| किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं |
किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें |
क्रॉलर सिर्फ़ User-agent: * Disallow: / Allow: /public/ |
| सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें |
सिर्फ़ User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें |
हो सकता है कि User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन |
इसे लागू करने के बाद, आपके पेज Google Search के नतीजों में नहीं दिखते. हालांकि, User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Google को अपनी साइट पर मौजूद सभी इमेज को क्रॉल करने से रोकें. इसमें Google पर इमेज दिखाने वाली सभी जगहें शामिल हैं. जैसे, Google इमेज और डिस्कवर फ़ीड |
इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता. User-agent: Googlebot-Image Disallow: / |
|
Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
किसी खास फ़ाइल टाइप की फ़ाइलें क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.gif$ |
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, * और $ वाइल्डकार्ड
का इस्तेमाल करें
|
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.xls$ |
| एक ही ग्रुप में कई उपयोगकर्ता एजेंट को जोड़ना |
एक से ज़्यादा क्रॉलर के नियमों को एक ग्रुप में शामिल करने से, फ़ाइल छोटी हो जाती है और उसे मैनेज करना आसान हो जाता है. ऐसा इसलिए, क्योंकि ग्रुप के सभी नियम, सूची में शामिल हर उपयोगकर्ता एजेंट पर लागू होते हैं. यह उपयोगकर्ता एजेंट को दो बार लिस्ट करने और उनके लिए अलग-अलग नियम तय करने जैसा है. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |