Najczęstsze pytania na temat robotów

Ogólne pytania na temat robotów

Czy moja witryna potrzebuje pliku robots.txt?

Nie. Gdy Googlebot odwiedza witrynę, najpierw próbuje odczytać plik robots.txt, aby sprawdzić, czy ma pozwolenie na indeksowanie. Witryna bez pliku robots.txt, metatagów robots lub nagłówków HTTP X-Robots-Tag jest zazwyczaj skanowana i indeksowana w typowy sposób.

Której metody należy użyć do zablokowania robotów?

To zależy. Każda z tych metod ma swoje zastosowanie:

  • Plik robots.txt: użyj go, jeśli indeksowanie treści powoduje problemy na serwerze. Możesz na przykład zabronić indeksowania skryptów nieograniczonego kalendarza. Nie używaj pliku robots.txt do blokowania treści prywatnych (zamiast tego zastosuj uwierzytelnianie po stronie serwera) ani do wyboru strony kanonicznej. Jeśli chcesz, aby adres URL nie był indeksowany, zamiast tego użyj metatagu robots lub nagłówka HTTP X-Robots-Tag.
  • Metatag robots: użyj go, jeśli chcesz kontrolować, jak poszczególne strony HTML wyświetlają się w wynikach wyszukiwania lub aby mieć pewność, że nie będą się one tam pojawiać.
  • Nagłówek HTTP X-Robots-Tag: użyj go, jeśli chcesz kontrolować, jak treści inne niż HTML wyświetlają się w wynikach wyszukiwania lub aby mieć pewność, że nie będą się one tam pojawiać.

Czy mogę użyć pliku robots.txt, metatagu robots lub nagłówka HTTP X-Robots-Tag, aby usunąć witrynę innego użytkownika z wyników wyszukiwania?

Nie. Te metody działają tylko w witrynach, w których możesz zmieniać kod lub dodawać pliki. Dowiedz się więcej o usuwaniu informacji z Google.

Jak spowolnić indeksowanie mojej witryny przez Google?

Pytania na temat pliku robots.txt

Używam tego samego pliku robots.txt w wielu witrynach. Czy mogę podać pełny adres URL zamiast ścieżki względnej?

Nie. Dyrektywy w pliku robots.txt (z wyjątkiem sitemap:) są poprawne tylko po podaniu ścieżek względnych.

Czy mogę umieścić plik robots.txt w podkatalogu?

Nie. Plik musi być w katalogu głównym witryny.

Chcę zablokować folder prywatny. Czy mogę uniemożliwić innym osobom odczyt mojego pliku robots.txt?

Nie. Plik robots.txt może odczytać dowolny użytkownik. Jeśli nie chcesz, aby nazwy folderów lub plików z treścią były publiczne, nie wymieniaj ich w pliku robots.txt. Odradzamy udostępnianie różnych plików robots.txt w zależności od klienta użytkownika lub innych atrybutów.

Czy muszę dodać dyrektywę allow, aby zezwolić na indeksowanie?

Nie. Nie musisz dodawać dyrektywy allow. Indeksowanie wszystkich adresów URL jest domyślnie dozwolone, a dyrektywa allow służy do zastępowania dyrektyw disallow w tym samym pliku robots.txt.

Co się dzieje, gdy plik robots.txt zawiera błąd lub nieobsługiwaną dyrektywę?

Roboty indeksujące są zwykle bardzo elastyczne i drobne błędy w pliku robots.txt ich nie dezorientują. Najgorsze, co może się zdarzyć, to zignorowanie nieprawidłowych lub nieobsługiwanych dyrektyw. Pamiętaj jednak, że Google nie jest w stanie odgadnąć intencji twórcy pliku robots.txt. Może tylko interpretować odczytane dyrektywy. Jeśli wiesz o problemach w pliku robots.txt, zazwyczaj łatwo je rozwiązać.

Jakiego programu użyć do utworzenia pliku robots.txt?

Możesz użyć dowolnego programu, który zapisuje prawidłowy plik tekstowy. Typowe programy używane do tworzenia plików robots.txt to Notatnik, TextEdit, vi oraz emacs. Dowiedz się więcej o tworzeniu plików robots.txt. Po utworzeniu pliku sprawdź go za pomocą testera plików robots.txt.

Czy jeśli za pomocą dyrektywy disallow w pliku robots.txt zabronię Google indeksowania strony, to zniknie ona z wyników wyszukiwania?

Uniemożliwienie Google zindeksowania strony zwykle powoduje usunięcie jej z indeksu Google.

Dyrektywa disallow w pliku robots.txt nie gwarantuje jednak, że strona nie będzie pojawiać się w wynikach wyszukiwania – na podstawie informacji zewnętrznych (takich jak linki przychodzące) Google wciąż może uważać ją za istotną i uwzględniać jej URL w wynikach wyszukiwania. Jeśli chcesz wyraźnie zablokować indeksowanie strony, użyj metatagu robots noindex lub nagłówka HTTP X-Robots-Tag. W takiej sytuacji nie zabraniaj dostępu do strony w pliku robots.txt, bo robot musi zindeksować stronę, aby odczytać tag i postąpić zgodnie z nim. Dowiedz się, jak kontrolować dane udostępniane Google.

Po jakim czasie zmiany w pliku robots.txt wpływają na wyniki wyszukiwania?

Przede wszystkim musimy odświeżyć plik robots.txt w pamięci podręcznej (treści w pamięci podręcznej zwykle zapisujemy najwyżej na 1 dzień). Możesz przyspieszyć ten proces, przesyłając zaktualizowany plik robots.txt do Google. Skanowanie i indeksowanie to złożony proces, który w przypadku poszczególnych adresów URL może zająć dłuższy czas, dlatego nawet po wykryciu zmiany nie wiemy dokładnie, ile czasu to potrwa. Pamiętaj też, że nawet gdy plik robots.txt zabrania dostępu do adresu URL i nie możemy indeksować danej strony, wciąż może ona pojawiać się w wynikach wyszukiwania. Jeśli chcesz przyspieszyć usuwanie zablokowanych stron z Google, prześlij prośbę o usunięcie.

Jak tymczasowo zawiesić całe indeksowanie mojej witryny?

Jeśli chcesz tymczasowo zawiesić całe indeksowanie, ustaw zwracanie kodu stanu HTTP 503 (service unavailable) w odpowiedzi na wszystkie adresy URL, z plikiem robots.txt włącznie. Co jakiś czas będziemy ponownie próbować odczytać plik robots.txt, aż znowu stanie się on dostępny. Odradzamy blokowanie całego pobierania w pliku robots.txt.

Mój serwer nie rozróżnia wielkości liter. Jak całkowicie zabronić indeksowania niektórych folderów?

Wielkość liter w dyrektywach w pliku robots.txt jest rozróżniana. W takiej sytuacji najlepiej użyć metod wyboru strony kanonicznej, aby mieć pewność, że tylko jedna wersja adresu URL jest indeksowana. Dzięki temu plik robots.txt może mieć mniej wierszy, co pozwala łatwiej nim zarządzać. Jeśli nie możesz tego zrobić, wymień typowe kombinacje nazwy folderu lub jak najbardziej ją skróć, używając tylko kilku pierwszych znaków zamiast pełnej nazwy. Na przykład zamiast podawać wszystkie wersje nazwy /MyPrivateFolder z wielkimi i małymi literami, wymień tylko wersje nazwy „/MyP” (jeśli masz pewność, że nie ma innych dostępnych do indeksowania adresów URL z takim początkiem). Możesz też użyć metatagu robots lub nagłówka HTTP X-Robots-Tag, jeśli indeksowanie Ci nie przeszkadza.

Mój serwer zwraca kod 403 Forbidden w odpowiedzi na wszystkie adresy URL, w tym plik robots.txt. Dlaczego witryna wciąż jest indeksowana?

Kod stanu HTTP 403 Forbidden i pozostałe kody stanu HTTP 4xx są interpretowane jako informacja, że plik robots.txt nie istnieje. Oznacza to, że roboty zwykle przyjmują, że mogą zindeksować wszystkie adresy URL witryny. Aby zablokować indeksowanie witryny, plik robots.txt musi być zwracany z kodem stanu HTTP 200 OK i musi zawierać odpowiednią regułę disallow.

Pytania na temat metatagu robots

Czy metatag robots zastępuje plik robots.txt?

Nie. Plik robots.txt określa dostęp do stron. Metatag robots określa, czy strona będzie indeksowana. Jednak aby można go było odczytać, stronę trzeba zeskanować. Jeśli skanowanie strony sprawia problem (np. bardzo obciąża serwer), użyj pliku robots.txt. Jeśli znaczenie ma tylko to, czy strona pojawia się w wynikach wyszukiwania, możesz użyć metatagu robots.

Czy metatag robots może blokować część strony przed indeksowaniem?

Nie. Metatag robots to ustawienie na poziomie strony.

Czy metatagu robots można używać poza sekcją <head>?

Nie. Obecnie metatag robots musi znajdować się w sekcji <head> strony.

Czy metatag robots blokuje indeksowanie?

Nie. Nawet gdy metatag robots zawiera wartość noindex, musimy co jakiś czas ponownie zindeksować dany URL, aby sprawdzić, czy metatag się nie zmienił.

Czym wartość nofollow metatagu robots różni się od atrybutu linku rel="nofollow"?

Wartość nofollow metatagu robots odnosi się do wszystkich linków na stronie, a atrybut linku rel="nofollow" odnosi się tylko do niektórych linków. Więcej informacji o atrybucie linku rel="nofollow" znajdziesz w dokumentacji dotyczącej spamu tworzonego przez użytkowników i atrybutu rel="nofollow".

Pytania dotyczące nagłówka HTTP X-Robots-Tag

Jak sprawdzić nagłówek X-Robots-Tag adresu URL?

Prosty sposób, aby zobaczyć nagłówki serwera, to użycie narzędzia do sprawdzania adresów URL w Google Search Console. Aby sprawdzić nagłówki odpowiedzi dowolnego adresu URL, spróbuj wyszukać „narzędzie do sprawdzania nagłówków serwera”.

Nie możesz znaleźć odpowiedzi?

Jeśli na tej stronie nie ma odpowiedzi na Twoje pytanie, przejrzyj zasoby pomocy Google dla właścicieli witryn.

Prowadzimy też oficjalne fora pomocy ds. wyszukiwarki Google, które działają w tych językach: EnglishDeutschEspañolFrançaisItalianoNederlandsPolskiPortuguêsTürkçeРусскийالعربية中文(简体)日本語한국어