Przydatne reguły pliku robots.txt

Oto kilka częstych przydatnych reguł pliku robots.txt:

Przydatne reguły
Zakaz indeksowania całej witryny

Pamiętaj, że w niektórych sytuacjach adresy URL z witryny wciąż mogą być indeksowane, nawet gdy nie zostały przeskanowane.

User-agent: *
Disallow: /
Zezwalanie na indeksowanie całej witryny (za pomocą pustej reguły Disallow)

Wyraźnie zezwala to wszystkim robotom na dostęp do całej witryny. Jest to funkcjonalnie równoważne z brakiem pliku robots.txt lub użyciem reguły Allow: /.

User-agent: *
Disallow:
Zakaz indeksowania katalogu i jego zawartości

Aby zablokować indeksowanie całego katalogu, dodaj do jego nazwy ukośnik.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Zakaz indeksowania jednej strony internetowej

Na przykład: zakaz indeksowania strony useless_file.html pod adresem https://example.com/useless_file.html i strony other_useless_file.html w katalogu junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Zakaz skanowania całej witryny z wyjątkiem podkatalogu

Roboty mają dostęp tylko do podkatalogu public.

User-agent: *
Disallow: /
Allow: /public/
Zezwolenie na dostęp jednemu robotowi

Tylko Googlebot-News może zindeksować całą witrynę.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Zezwolenie na dostęp wszystkim robotom oprócz jednego

Unnecessarybot nie może indeksować witryny. Wszystkie inne roboty mogą.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Zakaz indeksowania całej witryny, ale z zezwoleniem dla robota Storebot-Google

Ta implementacja ukrywa Twoje strony przed wynikami wyszukiwania Google, ale robot Storebot-Google wciąż może je analizować, aby wyświetlać Twoje produkty w Zakupach Google.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Zablokuj wszystkie obrazy z Twojej witryny w Google (obejmuje wszystkie miejsca, w których obrazy są wyświetlane w Google, w tym Grafikę Google i Discover)

Google nie może indeksować obrazów ani filmów bez ich skanowania.

User-agent: Googlebot-Image
Disallow: /

Zakaz dostępu do konkretnego obrazu w Grafice Google

Na przykład: zakaz indeksowania obrazu dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Zakaz indeksowania plików określonego typu

Na przykład: zakaz indeksowania wszystkich plików .gif.

User-agent: Googlebot
Disallow: /*.gif$
Użycie symboli wieloznacznych *$ w celu dopasowania adresów URL, które kończą się określonym ciągiem

Na przykład: zakaz indeksowania wszystkich plików .xls.

User-agent: Googlebot
Disallow: /*.xls$
Łączenie wielu klientów użytkownika w jedną grupę

Połączenie reguł dla wielu robotów w jedną grupę sprawia, że plik jest krótszy i łatwiejszy w zarządzaniu, ponieważ wszystkie reguły w grupie mają zastosowanie do każdego wymienionego klienta użytkownika. Jest to to samo co dwukrotne wymienienie klientów użytkownika z odpowiednimi regułami.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /