Plik robots.txt – wprowadzenie

Plik robots.txt przekazuje robotom wyszukiwarek informacje, do których adresów URL w Twoje witrynie roboty te mogą uzyskać dostęp. Używa się go głównie po to, aby witryna nie była przeciążona żądaniami. Nie jest to mechanizm służący do ukrywania strony internetowej przed Google. Jeśli nie chcesz, aby Twoja strona była indeksowana przez Google, zablokuj indeksowanie za pomocą tagu noindex lub zabezpiecz ją hasłem.

Do czego służy plik robots.txt?

Służy on głównie do zarządzania ruchem robotów indeksujących w witrynie i zazwyczaj stosuje się go do wykluczenia pliku z indeksu Google w zależności od jego typu:

Wpływ pliku robots.txt na różne typy plików
Strona internetowa

Możesz użyć pliku robots.txt na stronach internetowych (HTML, PDF lub w innych formatach niemultimedialnych możliwych do odczytania przez Google) do zarządzania ruchem związanym z indeksowaniem, aby serwer nie został przeciążony żądaniami robota Google albo żeby zapobiec indeksowaniu nieistotnych lub podobnych stron w witrynie.

Jeśli Twoja strona jest zablokowana za pomocą pliku robots.txt, jej adres URL nadal może pojawiać się w wynikach wyszukiwania, ale bez opisu. Pliki obrazów, wideo, PDF i inne niż HTML zostaną wykluczone. Jeśli zobaczysz taki wynik wyszukiwania dotyczący Twojej strony i zechcesz go naprawić, usuń wpis w pliku robots.txt, który ją blokuje. Jeśli chcesz całkowicie zablokować wyświetlanie strony w wynikach wyszukiwania, użyj innej metody.

Plik multimedialny

Plik robots.txt pozwala zarządzać ruchem indeksowania oraz wykluczać pliki graficzne, wideo i dźwiękowe z wyników wyszukiwania Google. Pomimo tego inne strony lub osoby mogą kierować użytkowników do Twoich plików graficznych, wideo czy dźwiękowych za pomocą linków.

Plik zasobu Za pomocą pliku robots.txt możesz zablokować pliki zasobów, takie jak nieistotny obraz, skrypt czy styl, jeśli uważasz, że ich brak nie wpłynie istotnie na załadowane strony. Jeśli jednak brak tych zasobów może utrudniać robotowi Google interpretację strony, nie należy ich blokować – może nam to uniemożliwić skuteczne przeanalizowanie stron, które są z nimi ściśle związane.

Ograniczenia pliku robots.txt

Zanim utworzysz lub zmodyfikujesz plik robots.txt, zapoznaj się z ograniczeniami tej metody blokowania adresów URL. W zależności od celów i sytuacji warto rozważyć użycie innych mechanizmów, aby uzyskać pewność, że wybranych adresów URL nie da się znaleźć w sieci.

  • Niektóre wyszukiwarki mogą nie obsługiwać dyrektyw pliku robots.txt.
    Instrukcje w plikach robots.txt nie mogą narzucać zachowania robotowi indeksującemu Twoją witrynę – to od niego zależy przestrzeganie instrukcji. Googlebot i inne znane roboty indeksujące stosują się do poleceń w pliku robots.txt, jednak może się zdarzyć, że niektóre roboty nie będą tego robić. Dlatego aby ukryć dane przed robotami indeksującymi, lepiej wykorzystać inne metody blokowania dostępu, np. zabezpieczyć hasłem prywatne pliki umieszczone na serwerze.
  • Każdy robot inaczej interpretuje składnię.
    Pomimo tego, że znane roboty indeksujące stosują się do poleceń zawartych w pliku robots.txt, każdy z nich może rozumieć je inaczej. Aby przekazać instrukcje różnym robotom, musisz użyć odpowiedniej składni, bo część z nich może nie rozpoznawać pewnych poleceń.
  • Strona niedozwolona w pliku robots.txt nadal może być indeksowana, jeśli prowadzą do niej linki z innych witryn.
    Google nie indeksuje zawartości blokowanej przez plik robots.txt, ale w dalszym ciągu możemy zindeksować zablokowany adres URL, jeśli znajdziemy go w innym miejscu w sieci. Taki URL (a potencjalnie również inne upublicznione informacje – np. tekst kotwicy w linkach do strony) może więc mimo to pojawić się w wynikach wyszukiwania Google. Aby całkowicie wykluczyć adres URL z wyników wyszukiwania Google, zabezpiecz hasłem pliki na swoim serwerze albo użyj metatagu noindex lub nagłówka odpowiedzi bądź całkowicie usuń stronę.

Tworzenie pliku robots.txt

Dowiedz się, jak utworzyć plik robots.txt, jeśli uważasz, że go potrzebujesz.