Piątek, 17 lutego 2023 roku
W ciągu ostatnich kilku miesięcy zaobserwowaliśmy wzrost liczby właścicieli witryn i niektórych sieci dystrybucji treści (CDN) próbujących wykorzystać błędy 404 i inne błędy 4xx klienta (ale nie 429) do zmniejszenia szybkości indeksowania przez Googlebota.
Krótka wersja tego posta na blogu to: nie należy tak postępować. Oferujemy całą dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota. Przeczytaj ten artykuł i dowiedz się, jak skutecznie zarządzać szybkością indeksowania przez Googlebota.
Podstawowe informacje: błędy klienta 4xx dotyczą błędów klienta
Błędy 4xx zwracane przez serwery do klientów stanowią sygnał od serwera, że żądanie klienta z jakiegoś powodu było błędne. Większość błędów w tej kategorii jest całkiem nieszkodliwa: błędy „nie znaleziono”, „zabronione”, „jestem czajnikiem” (tak, jest coś takiego). Nie sugerują, że coś jest nie tak z samym serwerem.
Jedynym wyjątkiem jest błąd 429, który oznacza „zbyt wiele żądań”. Ten błąd jest wyraźnym sygnałem dla każdego dobrego robota, w tym naszego ulubionego Googlebota, że musi zwolnić, ponieważ przeciąża serwer.
Dlaczego błędy 4xx nie są dobre do ograniczania liczby żądań Googlebota (z wyjątkiem 429)
Błędy klienta to po prostu błędy klienta. Nie sugerują one błędu serwera: jego przeciążenia, sytuacji napotkania błędu krytycznego lub niemożliwości odpowiedzenia na żądanie. Oznaczają po prostu, że żądanie klienta było w jakiś sposób nieprawidłowe. Nie ma sensu porównywać np. błędu 404 do sytuacji przeciążenia serwera.
Załóżmy taki przypadek: otrzymujesz znaczną liczbę błędów 404, ponieważ znajomy przypadkowo podał linki do niewłaściwych stron w Twojej witrynie, co z kolei zmniejsza szybkość indeksowania przez Googlebota. Byłby z tym spory problem. To samo dotyczy błędów 403, 410 i 418.
Ważnym wyjątkiem jest kod stanu 429, który oznacza „zbyt wiele żądań”.
Jak ograniczenie liczby żądań za pomocą błędu 4xx wpływa na działanie Googlebota
Wszystkie kody stanu HTTP 4xx (z wyjątkiem 429) powodują, że Twoje treści są usuwane z wyszukiwarki Google. Co gorsza, jeśli do obsługi pliku robots.txt też używasz kodu stanu HTTP 4xx, będzie on traktowany tak, jakby nie istniał. Jeśli była tam reguła, która uniemożliwiała indeksowanie Twoich brudów, Googlebot już o nich wie – nie jest to przyjemna sytuacja dla żadnej ze stron.
Jak prawidłowo ograniczyć szybkość indeksowania przez Googlebota
Oferujemy obszerną dokumentację dotyczącą zmniejszania szybkości indeksowania stron przez Googlebota oraz sposobu, w jaki Googlebot (oraz indeksowanie stron w wyszukiwarce) obsługuje różne kody stanu HTTP. Warto się z nią zapoznać. Krótko mówiąc, możesz wykonać jedną z tych czynności:
- skorzystać z Search Console do tymczasowego ograniczenia szybkości indeksowania;
-
zwrócić Googlebotowi kod stanu HTTP
500,503lub429, gdy indeksowanie jest zbyt szybkie.
Jeśli potrzebujesz dodatkowych wskazówek lub wyjaśnień, skontaktuj się z nami na Twitterze lub zadaj pytanie na Forum pomocy.