Co warto wiedzieć o indeksowaniu internetu przez Google

Google indeksuje otwarty internet od ponad 30 lat. Regularnie otrzymujemy pytania o to, jak działają nasze roboty indeksujące. Aby odpowiedzieć na niektóre z nich, przedstawiamy kilka faktów o robotach Google i o tym, jak pomagają nam porządkować informacje z całego świata, łącząc użytkowników z treściami z internetu.

Co to jest indeksowanie? Krótko mówiąc, indeksowanie to sposób, w jaki Google „widzi” internet

Indeksowanie to proces, w którym automatyczne oprogramowanie wykrywa nowe strony internetowe i je analizuje. Dzięki temu, gdy będziesz szukać w Google strony internetowej, będziemy wiedzieć, że ona istnieje, i będziemy mogli uwzględnić ją w wynikach wyszukiwania. Wszystkie wyszukiwarki polegają na indeksowaniu, aby wiedzieć, jakie strony i informacje mogą być dostępne. Więcej informacji znajdziesz w naszym filmie o tym, jak wyszukiwarka Google indeksuje strony.

Mamy wiele robotów indeksujących, a każdy z nich ma ważne zadania

Googlebot to nasz najbardziej znany robot indeksujący. Używamy go, aby wyniki wyszukiwania w Google były aktualne. Mamy też roboty indeksujące, które są przeznaczone do innych usług, takich jak Grafika Google i Zakupy Google. Udostępniamy pełną dokumentację naszych najczęściej używanych robotów i ich zastosowań. Nasze roboty indeksujące używają łatwych do rozpoznania nazw klientów użytkownika i znanych adresów internetowych. Dzięki temu właściciele witryn mogą mieć pewność, że widoczne w logach roboty Google są wiarygodne.

Powtarzamy indeksowanie, aby znajdować najnowsze aktualizacje i zapewniać najświeższe wyniki wyszukiwania

Aby wychwytywać najnowsze artykuły, możemy ponownie indeksować strony główne witryn z wiadomościami co kilka minut. W innych przypadkach może się okazać, że od lat nic się nie zmieniło, więc możemy poczekać miesiąc, zanim ponownie zaindeksujemy stronę. Właściciele witryn mogą wpływać na częstotliwość ponownego indeksowania, używając plików mapy witryny, które informują nas o nowych i zaktualizowanych stronach.

Częste indeksowanie to dobry znak

Jeśli często indeksujemy Twoją witrynę, oznacza to, że Twoje strony zawierają nowe lub bardzo trafne treści, których szukają użytkownicy, a nasze systemy rozpoznają to zapotrzebowanie. Dobrym przykładem są zakupy online: często indeksujemy witryny e-commerce, aby w wynikach wyszukiwania wyświetlać najbardziej aktualne ceny, promocje i stan asortymentu sprzedawców.

Indeksowanie Google z czasem się rozwinęło, ponieważ strony stały się bardziej złożone

Częste ponowne indeksowanie jest też potrzebne, aby w pełni zrozumieć zawartość strony internetowej i to, co oferuje. Nasze roboty indeksujące korzystają z techniki renderowania, która polega na pełnym wczytywaniu witryny, aby „zobaczyć” stronę tak, jak zrobiłaby to prawdziwa osoba. Z biegiem lat strony internetowe stawały się coraz bardziej zaawansowane.Średnia strona mobilna zwiększyła swój rozmiar z 816 kilobajtów do 2,3 megabajta i musi teraz wczytywać ponad 60 różnych plików, od obrazów po interaktywne komponenty. Aby uzyskać reprezentatywny obraz strony internetowej w pełnej krasie, możemy potrzebować kilkukrotnego indeksowania tej samej strony – lub nawet więcej, ponieważ nowe elementy są dodawane cały czas.

Automatycznie optymalizujemy indeksowanie

Nasze roboty są zaprojektowane z myślą o wydajności i dostosowują się tak, aby zminimalizować wpływ na właścicieli witryn. Na przykład gdy witryna działa wolniej lub zwraca błędy, nasza szybkość indeksowania automatycznie się zmienia, aby uniknąć przeciążenia serwerów witryny. Staramy się ograniczać niepotrzebne indeksowanie, zapisując w pamięci podręcznej indeksowane treści. W miarę jak nasze roboty odkrywają kolejne części witryny, rozpoznają też sekcje, które można indeksować rzadziej. Na przykład kalendarze sięgające roku 9999 prawdopodobnie nie muszą być indeksowane w całości. Właściciele witryn mogą pomóc w określeniu, które treści nie muszą być indeksowane. Dzięki temu witryny mogą zaoszczędzić pieniądze, obniżając koszty infrastruktury, a internet jako całość staje się bardziej wydajny.

Roboty Google nigdy nie wchodzą na strony z treściami za paywallem lub wymagającymi subskrypcji bez pozwolenia

Domyślnie, jeśli strona nie jest dostępna w otwartej sieci (np. jeśli treść znajduje się za stroną logowania), nasze roboty nie mogą uzyskać do niej dostępu. Jeśli właściciele witryn chcą udzielić Google wyraźnego zezwolenia na dostęp do stron subskrypcji (np. aby Google mogło kierować użytkowników do tych treści), mogą skorzystać z naszych wskazówek. Jeśli zdecydujesz się przyznać dostęp do subskrypcji naszym robotom indeksującym, możesz użyć danych strukturalnych, aby nadal wyświetlać użytkownikom ekran logowania bez naruszania naszych zasad dotyczących spamu. Możesz też uniemożliwić wyświetlanie treści dostępnych w ramach subskrypcji w podglądach stron, korzystając z opcji sterowania podglądem.

Właściciele witryn mają kontrolę nad tym, co jest indeksowane i jak to się odbywa.

Przestrzegamy otwartych standardów internetowych, takich jak robots.txt, czyli prosty plik tekstowy, który umożliwia właścicielom witryn określenie, jak roboty takie jak nasz powinny wchodzić w interakcje z ich stronami. Plik robots.txt wraz z metatagami robots umożliwia witrynom łatwe informowanie Google i innych usług o sposobie uzyskiwania dostępu do ich treści. Mogą one blokować wyświetlanie stron w wyszukiwarce. Mogą informować nas o nowych treściach, które chcą, abyśmy zindeksowali, za pomocą map witryn. Mogą też zarządzać częstotliwością indeksowania swoich witryn za pomocą budżetu indeksowania.

Nasze standardowe roboty indeksujące zawsze respektują wybory witryn dotyczące sposobu uzyskiwania dostępu do ich treści i ich wykorzystywania.

Po indeksowaniu możemy wielokrotnie używać zebranych danych, aby zmniejszyć liczbę niepotrzebnych powtarzających się żądań do witryn. Nawet gdy ponownie wykorzystujemy te dane, nadal szanujemy wybory witryn dokonywane za pomocą pliku robots.txt i funkcji sterujących, które udostępniamy w ramach tego protokołu otwartej sieci. Na przykład witryny mogą używać Google-Extended w pliku robots.txt, aby określić m.in., czy ich treści mają pomagać w trenowaniu przyszłych wersji modeli Gemini. Korzystanie z Google-Extended nie wpływa na uwzględnienie witryny w wyszukiwarce ani nie jest używane jako czynnik decydujący o pozycji w rankingu w wyszukiwarce.

Właścicielom witryn udostępniamy wiele narzędzi do zarządzania procesem indeksowania przez Google, w tym Google Search Console, które jest dostępne bezpłatnie. Zawiera ono informacje o tym, ile stron zostało przez nas zaindeksowanych i dlaczego. Pomaga też witrynom diagnozować problemy, takie jak przerwy w działaniu serwera czy problemy z szybkością. Oprócz tego Search Console udostępnia wyczerpujące informacje o tym, jak strony witryny są widoczne w wyszukiwarce i jak użytkownicy wchodzą z nimi w interakcję.

Nasze roboty indeksujące pomagają użytkownikom znaleźć najlepsze treści w internecie, a my nieustannie szukamy sposobów na zwiększenie ich możliwości i wydajności.