Najczęstsze pytania na temat robotów
Ogólne pytania na temat robotów
Czy moja witryna potrzebuje pliku robots.txt?
Nie. Gdy Googlebot odwiedza witrynę, najpierw próbuje odczytać plik robots.txt, aby sprawdzić, czy ma pozwolenie na indeksowanie. Witryna bez pliku robots.txt, tagu meta
robots lub nagłówków HTTP X-Robots-Tag
jest zazwyczaj skanowana i indeksowana w zwykły sposób.
Której metody należy użyć do zablokowania robotów?
To zależy. Każda z tych metod ma swoje zastosowanie:
-
Plik robots.txt: użyj go, jeśli indeksowanie treści powoduje problemy na serwerze. Możesz na przykład zabronić indeksowania skryptów nieograniczonego kalendarza. Nie używaj pliku robots.txt do blokowania treści prywatnych (zamiast tego zastosuj uwierzytelnianie po stronie serwera) ani do wyboru strony kanonicznej.
Jeśli chcesz, aby adres URL nie był indeksowany, zamiast tego użyj tagu
meta
robots lub nagłówka HTTPX-Robots-Tag
. -
Tag
meta
robots: użyj go, jeśli chcesz kontrolować, jak poszczególne strony HTML wyświetlają się w wynikach wyszukiwania (lub aby mieć pewność, że nie będą się one tam pojawiać). - Nagłówek HTTP
X-Robots-Tag
: użyj go, jeśli chcesz kontrolować, jak treści inne niż HTML wyświetlają się w wynikach wyszukiwania lub aby mieć pewność, że nie będą się one tam pojawiać.
Czy mogę użyć pliku robots.txt, tagu meta
robots lub nagłówka HTTP X-Robots-Tag
, aby usunąć witrynę innego użytkownika z wyników wyszukiwania?
Nie. Te metody działają tylko w witrynach, w których możesz zmieniać kod lub dodawać pliki. Dowiedz się więcej o usuwaniu informacji z Google.
Jak spowolnić indeksowanie mojej witryny przez Google?
Ustawienie szybkości indeksowania możesz dostosować na koncie Google Search Console.
Pytania na temat pliku robots.txt
Używam tego samego pliku robots.txt w wielu witrynach. Czy mogę podać pełny adres URL zamiast ścieżki względnej?
Nie. Reguły w pliku robots.txt (z wyjątkiem sitemap:
) są poprawne tylko po podaniu ścieżek względnych.
Czy mogę umieścić plik robots.txt w podkatalogu?
Nie. Plik musi być w katalogu głównym witryny.
Chcę zablokować folder prywatny. Czy mogę uniemożliwić innym osobom odczyt mojego pliku robots.txt?
Nie. Plik robots.txt może odczytać dowolny użytkownik. Jeśli nie chcesz, aby nazwy folderów lub plików z treścią były publiczne, nie wymieniaj ich w pliku robots.txt. Odradzamy udostępnianie różnych plików robots.txt w zależności od klienta użytkownika lub innych atrybutów.
Czy muszę dodać regułę allow
, aby zezwolić na indeksowanie?
Nie. Nie musisz dodawać reguły allow
. Indeksowanie wszystkich adresów URL jest domyślnie dozwolone, a reguła allow
służy do zastępowania reguł disallow
w tym samym pliku robots.txt.
Co się dzieje, gdy plik robots.txt zawiera błąd lub nieobsługiwaną regułę?
Roboty indeksujące są zwykle bardzo elastyczne i drobne błędy w pliku robots.txt ich nie dezorientują. Najgorsze, co może się zdarzyć, to zignorowanie nieprawidłowych lub nieobsługiwanych reguł. Pamiętaj jednak, że Google nie jest w stanie odgadnąć intencji twórcy pliku robots.txt. Może jedynie interpretować odczytane dyrektywy. Jeśli wiesz o problemach w pliku robots.txt, zazwyczaj łatwo je rozwiązać.
Jakiego programu użyć do utworzenia pliku robots.txt?
Możesz użyć dowolnego programu, który zapisuje prawidłowy plik tekstowy. Typowe programy używane do tworzenia plików robots.txt to Notatnik, TextEdit, vi oraz emacs. Dowiedz się więcej o tworzeniu plików robots.txt. Po utworzeniu pliku sprawdź go za pomocą testera plików robots.txt.
Czy jeśli za pomocą reguły disallow
w pliku robots.txt zabronię Google indeksowania strony, to zniknie ona z wyników wyszukiwania?
Uniemożliwienie Google zindeksowania strony zwykle powoduje usunięcie jej z indeksu Google.
Dyrektywa disallow
w pliku robots.txt nie gwarantuje jednak, że strona nie będzie pojawiać się w wynikach wyszukiwania – na podstawie informacji zewnętrznych (takich jak linki przychodzące) Google wciąż może uważać ją za istotną i uwzględniać jej URL w wynikach wyszukiwania. Jeśli chcesz wyraźnie zablokować indeksowanie strony, użyj wartości meta
tagu noindex
robots lub nagłówka HTTP X-Robots-Tag
. W takiej sytuacji nie zabraniaj dostępu do strony w pliku robots.txt, bo robot musi zindeksować stronę, aby odczytać tag i postąpić zgodnie z nim. Dowiedz się, jak kontrolować dane udostępniane Google.
Po jakim czasie zmiany w pliku robots.txt wpływają na wyniki wyszukiwania?
Przede wszystkim musimy odświeżyć plik robots.txt w pamięci podręcznej (treści w pamięci podręcznej zwykle zapisujemy najwyżej na 1 dzień). Możesz przyspieszyć ten proces, przesyłając zaktualizowany plik robots.txt do Google. Skanowanie i indeksowanie to złożony proces, który w przypadku poszczególnych adresów URL może zająć dłuższy czas, dlatego nawet po wykryciu zmiany nie wiemy dokładnie, ile czasu to potrwa. Pamiętaj też, że nawet gdy plik robots.txt zabrania dostępu do adresu URL i nie możemy indeksować danej strony, wciąż może ona pojawiać się w wynikach wyszukiwania. Jeśli chcesz przyspieszyć usuwanie zablokowanych stron z Google, prześlij prośbę o usunięcie.
Jak tymczasowo zawiesić całe indeksowanie mojej witryny?
Jeśli chcesz tymczasowo zawiesić całe indeksowanie, ustaw zwracanie kodu stanu HTTP 503 (service unavailable)
w odpowiedzi na wszystkie adresy URL, z plikiem robots.txt włącznie. Co jakiś czas będziemy ponownie próbować odczytać plik robots.txt, aż znowu stanie się on dostępny. Odradzamy blokowanie całego pobierania w pliku robots.txt.
Mój serwer nie rozróżnia wielkości liter. Jak całkowicie zabronić indeksowania niektórych folderów?
Wielkość liter w regułach w pliku robots.txt jest rozróżniana. W takiej sytuacji najlepiej użyć metod wyboru strony kanonicznej, aby mieć pewność, że tylko jedna wersja adresu URL jest indeksowana.
Dzięki temu plik robots.txt może mieć mniej wierszy, co pozwala łatwiej nim zarządzać. Jeśli nie możesz tego zrobić, wymień typowe kombinacje nazwy folderu lub jak najbardziej ją skróć, używając tylko kilku pierwszych znaków zamiast pełnej nazwy. Na przykład zamiast podawać wszystkie wersje nazwy /MyPrivateFolder
z wielkimi i małymi literami, wymień tylko wersje nazwy /MyP
(jeśli masz pewność, że nie ma innych dostępnych do indeksowania adresów URL z takim początkiem). Możesz też użyć tagu meta
robots lub nagłówka HTTP X-Robots-Tag
, jeśli indeksowanie Ci nie przeszkadza.
Mój serwer zwraca kod 403 Forbidden
w odpowiedzi na wszystkie adresy URL, w tym plik robots.txt. Dlaczego witryna wciąż jest indeksowana?
Kod stanu HTTP 403 Forbidden
i pozostałe kody stanu HTTP 4xx
są interpretowane jako informacja, że plik robots.txt nie istnieje. Oznacza to, że roboty zwykle przyjmują, że mogą zindeksować wszystkie adresy URL witryny. Aby zablokować indeksowanie witryny, plik robots.txt musi być zwracany z kodem stanu HTTP 200 OK
i musi zawierać odpowiednią regułę disallow
.
Pytania na temat tagu meta
robots
Czy tag meta
robots zastępuje plik robots.txt?
Nie. Plik robots.txt określa dostęp do stron. Tag meta
robots określa, czy strona jest indeksowana, ale aby zobaczyć ten tag, stronę należy zeskanować.
Jeśli skanowanie strony sprawia problem (np. bardzo obciąża serwer), użyj pliku robots.txt. Jeśli znaczenie ma tylko to, czy strona pojawia się w wynikach wyszukiwania, możesz użyć tagu meta
robots.
Czy tag meta
robots może blokować część strony przed indeksowaniem?
Nie, tag meta
robots to ustawienie na poziomie strony.
Czy tagu meta
robots można używać poza sekcją <head>
?
Nie, tag meta
robots musi znajdować się w sekcji <head>
strony.
Czy tag meta
robots blokuje indeksowanie?
Nie. Nawet gdy tag meta
robots zawiera wartość noindex
, musimy co jakiś czas ponownie zindeksować dany URL, aby sprawdzić, czy tag meta
się nie zmienił.
Czym wartość nofollow
tagu meta
robots różni się od atrybutu linku rel="nofollow"
?
Wartość nofollow
tagu meta
robots odnosi się do wszystkich linków na stronie, a atrybut linku rel="nofollow"
odnosi się tylko do niektórych linków.
Więcej informacji o atrybucie linku rel="nofollow"
znajdziesz w dokumentacji dotyczącej spamu tworzonego przez użytkowników i atrybutu rel="nofollow"
.
Pytania dotyczące nagłówka HTTP X-Robots-Tag
Jak sprawdzić nagłówek X-Robots-Tag
adresu URL?
Prosty sposób, aby zobaczyć nagłówki serwera, to użycie narzędzia do sprawdzania adresów URL w Google Search Console. Aby sprawdzić nagłówki odpowiedzi dowolnego adresu URL, spróbuj wyszukać „narzędzie do sprawdzania nagłówków serwera”.