Uwaga na temat nieobsługiwanych reguł w pliku robots.txt

Wtorek, 2 lipca 2019 r.

Wczoraj ogłosiliśmy, że Google udostępnia swój parser plików robots.txt na licencji open source. To ekscytujący moment, który otwiera przed firmami możliwość rozwoju projektów open source związanych z wyszukiwarką. Opinie wydawców są pomocne i z niecierpliwością czekamy na pytania programistów i webmasterów. Wyróżniliśmy jedno pytanie, którym zajmiemy się w tym poście:
Dlaczego w kodzie nie ma modułu obsługi kodu obsługującego inne reguły, np. opóźnienie indeksowania?

Opublikowana przez nas wczoraj wersja robocza protokołu internetowego zapewnia rozszerzalną architekturę obsługi reguł, które nie są częścią standardu. Oznacza to, że jeśli robot chce obsługiwać własny wiersz, taki jak unicorns: allowed, może to zrobić. Aby pokazać, jak to wygląda w parserze, uwzględniliśmy bardzo popularny wiersz (mapę witryny) w naszym parserze pliku robots.txt typu open source.

Udostępniając naszą bibliotekę parsera na licencji open source, przeanalizowaliśmy wykorzystanie reguł pliku robots.txt. Skupiliśmy się na regułach, których wersja internetowa nie obsługuje, takich jak crawl-delay, nofollow i noindex. Ponieważ reguły te nigdy nie zostały udokumentowane przez Google, ich użycie w połączeniu z Googlebotem jest niewielkie. Stwierdziliśmy też, że użycie tych tagów nie było sprzeczne z innymi regułami tylko w 0,001% wszystkich plików robots.txt w internecie. Te błędy wpływają na obecność witryny w wynikach wyszukiwania Google, naszym zdaniem w sposób nieoczekiwany dla webmasterów.

Aby utrzymać zdrowy ekosystem i przygotować się na przyszłe wersje kodu open source, 1 września 2019 roku wycofamy cały kod obsługujący nieobsługiwane i nieopublikowane reguły (np. noindex). W przypadku webmasterów, którzy stosują regułę indeksowania noindex w pliku robots.txt sterującym indeksowaniem, dostępne są różne opcje:

noindex w metatagach robots meta: obsługiwana w nagłówkach odpowiedzi HTTP i kodzie HTML reguła noindex to najskuteczniejszy sposób usuwania adresów URL z indeksu, gdy indeksowanie jest dozwolone.
Kody stanu HHTP 404 i 410: oba kody stanu oznaczają, że strona nie istnieje, co spowoduje usunięcie takich adresów URL z indeksu Google po ich zindeksowaniu i przetworzeniu.
Ochrona hasłem: jeśli nie używasz znaczników do wskazania subskrypcji lub treści płatnych, ukrycie strony za logowaniem zwykle powoduje usunięcie jej z indeksu Google.
Disallow w pliku robots.txt: wyszukiwarki mogą indeksować tylko strony, o których wiedzą, więc zablokowanie skanowania strony zwykle uniemożliwia jej zindeksowanie. Wyszukiwarka może też indeksować adresy URL na podstawie linków z innych stron, ale nie planujemy wyświetlania ich zawartości – chcemy, aby w przyszłości były one mniej widoczne.
Narzędzie do usuwania adresów URL z Search Console: to narzędzie pozwala szybko i łatwo usunąć adres URL z wyników wyszukiwania Google.

Więcej wskazówek na temat usuwania informacji z wyników wyszukiwania Google znajdziesz w naszym Centrum pomocy. Jeśli masz pytania, znajdziesz nas na Twitter i na Forum dla webmasterów – offline i w trybie online.

Autor: Gary Illyes