Udostępniamy parser pliku robots.txt jako open source

Poniedziałek, 1 lipca 2019 r.

Przez 25 lat protokół Robots Exclusion Protocol (REP) był tylko faktycznym standardem. Było to czasem irytujące. Z jednej strony dla webmasterów oznaczało to niepewność w wielu przypadkach, np. gdy edytor tekstu zawierał w plikach robots.txt znaki BOM. Z drugiej strony przynosi to też niepewność w przypadku deweloperów i narzędzi deweloperskich. Jak na przykład postępować z plikami robots.txt, które mają setki megabajtów?

Dziś ogłosiliśmy, że podejmujemy wysiłki, aby ustanowić platformę REP standardem internetowym. To ważny krok, ale oznacza on dodatkową pracę dla deweloperów, którzy analizują pliki robots.txt.

Aby ułatwić im zadanie, udostępniamy na licencji open source bibliotekę C++ używaną przez nasze systemy produkcyjne do analizowania i dopasowywania reguł w plikach robots.txt. Ta biblioteka istnieje od 20 lat i zawiera fragmenty kodu napisane w latach 90. XX wieku. Od tego czasu biblioteka ewoluowała. Dowiedzieliśmy się dużo o tym, jak webmasterzy tworzą pliki robots.txt, oraz o przypadkach granicznych, którymi musieliśmy się zająć. W wersji roboczej protokołu uwzględniliśmy też informacje uzyskane do tej pory.

W pakiecie open source znajdziesz też narzędzie do testowania, które ułatwi Ci przetestowanie kilku reguł. Skompilowane narzędzie jest bardzo proste w obsłudze:

robots_main <robots.txt content> <user_agent> <url>

Jeśli chcesz pobrać bibliotekę, przejdź do naszego repozytorium GitHub z parserem pliku robots.txt. Chętnie dowiemy się, co udało Ci się z nim zrobić. Jeśli stworzysz coś, używając naszej biblioteki, napisz nam komentarz na Twitterze. Jeśli masz uwagi lub pytania dotyczące biblioteki, znajdź nas na GitHub.

Autorzy: Edu Pereda, Lode Vandevenne i Gary Illyes, zespół Search Open Sourcing