Zalecenie nie używania błędów 403 ani 404 do ograniczania liczby żądań

Piątek, 17 lutego 2023 roku

W ciągu ostatnich kilku miesięcy zaobserwowaliśmy wzrost liczby właścicieli witryn i niektórych sieci dystrybucji treści (CDN) próbujących wykorzystać błędy 404 i inne błędy 4xx klienta (ale nie 429) do zmniejszenia szybkości indeksowania przez Googlebota.

Krótka wersja tego posta na blogu to: nie należy tak postępować. Oferujemy całą dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota. Przeczytaj ten artykuł i dowiedz się, jak skutecznie zarządzać szybkością indeksowania przez Googlebota.

Podstawowe informacje: błędy klienta 4xx dotyczą błędów klienta

Błędy 4xx zwracane przez serwery do klientów stanowią sygnał od serwera, że żądanie klienta z jakiegoś powodu było błędne. Większość błędów w tej kategorii jest całkiem nieszkodliwa: błędy „nie znaleziono”, „zabronione”, „jestem czajnikiem” (tak, jest coś takiego). Nie sugerują, że coś jest nie tak z samym serwerem.

Jedynym wyjątkiem jest błąd 429, który oznacza „zbyt wiele żądań”. Ten błąd jest wyraźnym sygnałem dla każdego dobrego robota, w tym naszego ulubionego Googlebota, że musi zwolnić, ponieważ przeciąża serwer.

Dlaczego błędy 4xx nie są dobre do ograniczania liczby żądań Googlebota (z wyjątkiem 429)

Błędy klienta to po prostu błędy klienta. Nie sugerują one błędu serwera: jego przeciążenia, sytuacji napotkania błędu krytycznego lub niemożliwości odpowiedzenia na żądanie. Oznaczają po prostu, że żądanie klienta było w jakiś sposób nieprawidłowe. Nie ma sensu porównywać np. błędu 404 do sytuacji przeciążenia serwera. Załóżmy taki przypadek: otrzymujesz znaczną liczbę błędów 404, ponieważ znajomy przypadkowo podał linki do niewłaściwych stron w Twojej witrynie, co z kolei zmniejsza szybkość indeksowania przez Googlebota. Byłby z tym spory problem. To samo dotyczy błędów 403, 410418.

Ważnym wyjątkiem jest kod stanu 429, który oznacza „zbyt wiele żądań”.

Jak ograniczenie liczby żądań za pomocą błędu 4xx wpływa na działanie Googlebota

Wszystkie kody stanu HTTP 4xx (z wyjątkiem 429) powodują, że Twoje treści są usuwane z wyszukiwarki Google. Co gorsza, jeśli do obsługi pliku robots.txt też używasz kodu stanu HTTP 4xx, będzie on traktowany tak, jakby nie istniał. Jeśli była tam reguła, która uniemożliwiała indeksowanie Twoich brudów, Googlebot już o nich wie – nie jest to przyjemna sytuacja dla żadnej ze stron.

Jak prawidłowo ograniczyć szybkość indeksowania przez Googlebota

Oferujemy obszerną dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota oraz sposobu, w jaki Googlebot (oraz indeksowanie stron w wyszukiwarce) obsługuje różne kody stanu HTTP. Warto się z nią zapoznać. Krótko mówiąc, możesz wykonać jedną z tych czynności:

Jeśli potrzebujesz dodatkowych wskazówek lub wyjaśnień, skontaktuj się z nami na Twitterze lub zadaj pytanie na Forum pomocy.