Google का robots.txt पार्सर अब ओपन सोर्स कर दिया गया है

सोमवार, 01 जुलाई, 2019

पिछले 25 साल से, रोबोट एक्सक्लूज़न प्रोटोकॉल (आरईपी) सिर्फ़ डी-फ़ैक्टो स्टैंडर्ड था. इससे, कभी-कभी परेशानी हो सकती थी. एक तरफ़, वेबमास्टर के लिए इसका मतलब है कि कुछ मामलों में अनिश्चितता हो सकती है. जैसे, जब उनके टेक्स्ट एडिटर ने अपनी robots.txt फ़ाइलों में बीओएम वर्णों को शामिल किया हो. वहीं दूसरी तरफ़, क्रॉलर और टूल डेवलपर के लिए भी अनिश्चितता हुई. उदाहरण के लिए, वे robots.txt फ़ाइलों से कैसे निपटें, जो सैकड़ों मेगाबाइट की फ़ाइलें हैं?

Googlebot किसी वेबसाइट को अनबॉक्स करते हुए

आज, हमने बताया था कि हम आरईपी को इंटरनेट स्टैंडर्ड बनाने के दिशा-निर्देशों का पालन कर रहे हैं. हालांकि, यह एक अहम चरण है, लेकिन इसका मतलब है कि robots.txt फ़ाइलों को पार्स करने वाले डेवलपर को ज़्यादा काम करना होगा.

हम आपकी मदद के लिए हमेशा तैयार हैं: हमने C++ लाइब्रेरी को ओपन सोर्स किया है, जिसका इस्तेमाल हमारे प्रोडक्शन सिस्टम, robots.txt फ़ाइलों को पार्स और मिलान करने के नियमों के लिए करते हैं. यह लाइब्रेरी 20 साल से मौजूद है. इसमें 90 के दशक में लिखे कोड की जानकारी मौजूद है. उसके बाद से, लाइब्रेरी काफ़ी विकसित हुई; हमने इस बारे में बहुत कुछ सीखा कि वेबमास्टर, robots.txt फ़ाइलें कैसे लिखते हैं और किन खास मामलों में हमें परेशानी होती है. साथ ही, हमने इन सालों में जो सीखा उसकी जानकारी को इंटरनेट ड्राफ़्ट में भी जोड़ा.

हमने कुछ नियमों की जांच करने में आपकी मदद के लिए, ओपन सोर्स पैकेज में एक टेस्टिंग टूल भी शामिल किया है. इसे बनाने के बाद, इस्तेमाल करना बहुत आसान है:

robots_main <robots.txt content> <user_agent> <url>

अगर आपको लाइब्रेरी देखनी है, तो robots.txt पार्सर के लिए हमारे GitHub के डेटा स्टोर करने की जगह पर जाएं. हमें यह देखने में खुशी होगी कि इसका इस्तेमाल करके, क्या बनाया जा सकता है! अगर आपने लाइब्रेरी का इस्तेमाल करके कुछ बनाया है, तो Twitter पर टिप्पणी करें. साथ ही, अगर आपके पास लाइब्रेरी के बारे में टिप्पणियां या सवाल हैं, तो हमसे GitHub पर संपर्क करें.