Как работает Google Поиск

В этой статье приведены два объяснения принципов работы Google Поиска: краткое и подробное.

Google получает информацию из разных источников. Вот некоторые из них:

  • веб-страницы;
  • контент, добавленный пользователями, например опубликованный ими в сервисах "Google Мой бизнес" и "Google Карты";
  • отсканированные книги;
  • открытые базы данных в Интернете;
  • множество других источников.

В этой статье речь пойдет только о контенте, размещенном на веб-страницах.

Краткое объяснение

Формирование результатов поиска по веб-страницам проходит в три этапа, которые описаны ниже.

Сканирование

Сначала нужно определить, какие страницы есть в Интернете. Поскольку их официального реестра не существует, роботу Googlebot приходится постоянно искать новые страницы и добавлять их к списку уже известных. О некоторых страницах известно, потому что робот Googlebot посещал их раньше. Также он может переходить на них по ссылкам, размещенным на других страницах. Кроме того, владелец сайта может сам отправить в Google файл Sitemap со списком страниц, которые нужно сканировать. Наконец, если вы создали свой сайт с помощью стороннего сервиса, например Wix или Blogger, то такой поставщик услуг хостинга может сообщать Google о том, что нужно просканировать добавленные или измененные вами страницы.

Обнаружив URL страницы, робот Googlebot посещает ее (сканирует) с целью получить сведения о том, что на ней опубликовано. При этом он анализирует как текстовый, так и нетекстовый контент, а также общий дизайн, чтобы определить, где именно страница должна появляться в результатах поиска. Чем точнее будут классифицированы материалы вашего сайта, тем точнее мы сможем сопоставлять их с поисковыми запросами пользователей.

Как повысить эффективность сканирования

  • Убедитесь, что у Google есть доступ к страницам вашего сайта и они выглядят так, как должны. Google сканирует сайты анонимно (т. е. не использует пароли для входа в аккаунты). Чтобы робот Google мог правильно интерпретировать веб-страницу, у него также должен быть доступ ко всем изображениям и другим ее элементам. Узнать, так ли это, можно с помощью инструмента Проверка оптимизации для мобильных устройств. Достаточно ввести URL нужной страницы.
  • Если вы создали или обновили одну страницу, то можете отправить в Google один URL. Чтобы сообщить Google о большом количестве новых или измененных страниц, используйте файл Sitemap.
  • Если вы собираетесь запросить сканирование только одной страницы, пусть это будет главная страница. Именно она считается наиболее важной страницей вашего сайта. Если вы хотите, чтобы сайт был просканирован полностью, обязательно создайте удобную систему навигации со ссылками на все ключевые разделы и страницы. Так пользователям и роботу Googlebot будет проще ориентироваться на вашем сайте. Если у вас небольшой сайт (меньше 1000 страниц), достаточно отправить в Google только главную страницу (при условии, что робот Googlebot сможет открыть остальные страницы вашего сайта, переходя по ссылкам с главной).
  • Сделайте так, чтобы на каждую новую страницу вела ссылка с какой-нибудь страницы из числа тех, о которых Google уже известно. Обратите внимание, что наш робот не будет переходить по ссылкам, которые не соответствуют требованиям Руководства Google для веб-мастеров, например указаны в объявлениях и комментариях или размещены за плату.
Мы не обеспечиваем более частое сканирование или более высокий рейтинг сайта за плату. Те, кто утверждает обратное, вводят вас в заблуждение.

Индексирование

После обнаружения страницы нужно выяснить, какого рода контент на ней размещен. Этот процесс называется индексированием. Google анализирует контент страницы, систематизирует найденные на ней изображения и видеофайлы и т. д. Полученная информация сохраняется в индексе Google – огромной базе данных, размещенной на множестве компьютеров.

Как повысить эффективность индексирования

  • Придумывайте короткие и информативные заголовки страниц.
  • Используйте на страницах подходящие тематические заголовки.
  • На ваших страницах должно быть достаточное количество текста. Google умеет распознавать содержание некоторых картинок и роликов, но не так эффективно, как в случае с текстуальным контентом. По возможности добавляйте к видео и изображениям описания с помощью различных атрибутов, например alt.

Выдача результатов и ранжирование

Когда пользователь вводит запрос, Google на основе многочисленных факторов ищет в своем индексе самые подходящие результаты. Среди прочего учитывается местоположение, язык и тип устройства пользователя (обычный компьютер или телефон). Например, результаты по запросу "ремонт велосипедов" будут различаться в зависимости от того, находитесь вы в Париже или в Гонконге. Ранжирование выполняется согласно заданным алгоритмам, и Google не повышает позиции страниц за плату.

Как повысить эффективность ранжирования

Подробное объяснение

В этом разделе содержится более детальная информация о том, как работает Google Поиск.

Версия для любознательных

Сканирование

Сканирование – это процесс, в ходе которого робот Googlebot переходит на новые и обновленные страницы, чтобы добавить их в индекс Google.

Для его работы используется огромное количество компьютеров, ведь он обрабатывает миллиарды страниц. Программа, выполняющая сканирование, называется роботом Google (или "пауком"). Робот Googlebot автоматически определяет, какие сайты следует сканировать, как часто это нужно делать, а также какое количество страниц следует выбрать на каждом из них.

Google при обработке сайта в первую очередь анализирует список URL его страниц, который создан на основе предыдущих сеансов сканирования, и дополняет его информацией из файлов Sitemap, предоставленных веб-мастерами. Когда робот Googlebot переходит на страницу, он находит на ней ссылки и добавляет их в список сканируемых URL. Индекс Google обновляется с учетом всех новых и измененных сайтов, а также неработающих ссылок.

В ходе сканирования робот Googlebot отображает страницу при помощи актуальной версии браузера Chrome, а также запускает все скрипты, которые находит на ней. Если на вашем сайте используется динамически генерируемый контент, убедитесь, что вы соблюдаете основы поисковой оптимизации сайтов на JavaScript.

Основное и дополнительное сканирование

Google использует два разных типа поисковых роботов: для мобильных сайтов и для обычных. Соответственно, робот имитирует посещение страницы либо с мобильного устройства, либо с компьютера.

Один из этих двух типов считается для вашего сайта основным. Все ваши страницы сканируются роботом основного типа. При сканировании всех новых веб-ресурсов в качестве основного используется поисковый робот для мобильных сайтов.

Google также сканирует некоторые страницы вашего сайта с помощью второстепенного робота. Такое сканирование называется дополнительным и выполняется для того, чтобы понять, насколько сайт адаптирован к разным типам устройств.

Как Google определяет, какие страницы не нужно сканировать?

  • Если доступ к странице заблокирован в файле robots.txt, она не будет сканироваться, но все равно может быть проиндексирована, если на другом сайте есть ссылка на нее. Обратите внимание, что Google может по содержанию ссылки определить тему страницы и проиндексировать ее, не анализируя опубликованные на ней материалы.
  • Робот Google не может сканировать страницы, недоступные анонимным пользователям, то есть те страницы, для просмотра которых нужно выполнить авторизацию или вход.
  • После внесения в индекс Google реже сканируются точные копии других страниц.

Как повысить эффективность сканирования

Упростить роботу Googlebot поиск нужных страниц на вашем сайте можно перечисленными ниже способами.

Индексирование

Робот Googlebot обрабатывает каждую сканируемую страницу и интерпретирует ее контент, в том числе текст, основные теги и атрибуты (например, теги <title> и атрибуты alt), изображения, видео и т. п. Робот Googlebot способен анализировать многие типы контента, но не все. К примеру, не распознается содержание некоторых мультимедийных файлов.

Между процедурами сканирования и индексирования робот Google определяет, является ли обрабатываемая страница дубликатом или канонической версией другой страницы. Если страница считается дубликатом, она будет сканироваться значительно реже. Похожие страницы объединяются в документ, который состоит из канонической (основной) страницы и ее копий (могут иметься в виду альтернативные URL или версия той же страницы для другого типа устройств).

Обратите внимание, что Google не индексирует страницы, к которым применена директива noindex (в теге или HTTP-заголовке). Но даже если робот Google из-за запрета доступа в файле robots.txt, обязательной авторизации или какой-либо другой причины не видит как саму страницу, так и директиву, страница все равно может быть проиндексирована.

Как повысить эффективность индексирования

Есть много способов упростить для Google анализ контента:

Определение понятия "документ"

В Google информация о просканированных сайтах представлена в виде огромного набора документов. Каждый документ соответствует одной веб-странице или нескольким сразу. Это либо одинаковые, либо очень похожие страницы с разными URL. Такие URL могут вести на одну и ту же страницу (например, example.com/dresses/summer/1234 и example.com?product=1234) или на почти идентичные страницы, предназначенные для пользователей разных устройств (предположим, example.com/mypage – версия для ПК, а m.example.com/mypage – для мобильных устройств).

Google выбирает один из URL в документе в качестве канонического. Именно этот URL робот Googlebot сканирует и индексирует чаще других. Остальные URL в документе считаются копиями или альтернативными вариантами. Они могут иногда сканироваться и показываться в результатах поиска по обстоятельствам. Например, если каноническим является URL мобильной страницы, скорее всего, Google все же покажет пользователю компьютера версию для ПК (то есть альтернативную).

В большинстве отчетов Search Console данные агрегируются по каноническому URL документа. Есть инструменты (например, инструмент проверки URL), с помощью которых можно тестировать альтернативные URL. Однако информация о них должна появляться и при проверке канонического URL.

Даже если вы сами укажете канонический URL, Google по той или иной причине может выбрать в качестве канонической другую страницу.

Ниже приведен обобщенный список терминов с определениями, которые используются в Search Console.

  • Документ – это набор похожих страниц: канонический URL и его альтернативные варианты (если у вас есть разные версии страниц). URL в документе могут относиться к одной или разным организациям (корневому домену, например "google" в адресе www.google.com). При выборе URL, который будет показываться в результатах поиска, Google учитывает такие факторы, как платформа (мобильное устройство или компьютер), язык пользователя*, его местоположение и т. д. Похожие страницы на вашем сайте Google находит в процессе обычного сканирования или благодаря настроенным вами функциям и элементам, таким как переадресация и теги <link rel=alternate/canonical>. А похожие страницы других организаций могут быть идентифицированы как альтернативные варианты ваших страниц только в том случае, если это явно указано в коде вашего сайта (при помощи переадресации или тегов link).
  • URL – это адрес, который используется для перехода на определенный раздел сайта. Одна страница сайта может иметь разные URL.
  • Страница – веб-страница, которая открывается при переходе по URL. Она может существовать в нескольких версиях для разных платформ – для смартфонов, компьютеров, планшетов и т. д.
  • Версия – один из вариантов страницы. Обычно различают версии для мобильных устройств, для компьютеров и представленные в формате AMP. При этом у AMP-страницы тоже могут быть выделены варианты для мобильных устройств и для компьютеров. В зависимости от конфигурации сайта версии могут иметь разные URL (например, example.com и m.example.com) или одинаковые (если на сайте используется динамический показ или адаптивный дизайн, один URL может соответствовать разным версиям страницы). Варианты страницы на разных языках считаются не версиями, а отдельными документами.
  • Каноническая страница или канонический URL – URL, который Google считает основным в документе. Google сканирует этот URL постоянно, а остальные – изредка.
  • Альтернативная страница или альтернативный URL – URL, который Google может иногда сканировать. Google также показывает такие URL пользователю, когда они соответствуют обстоятельствам и запросу (например, пользователь компьютера будет видеть альтернативный URL для компьютеров, а не канонический для мобильных устройств).
  • Сайт – обычно так называется набор концептуально связанных веб-страниц. Иногда этот термин означает ресурс Search Console, хотя чаще всего ресурсом считается только часть сайта. Сайт может включать в себя несколько субдоменов (и даже доменов – через связанные AMP-страницы).

*Страницы с одинаковым контентом на разных языках хранятся в разных документах, ссылающихся друг на друга через теги с атрибутом hreflang. Поэтому не забывайте использовать эти теги для материалов, переведенных на другие языки.

Выдача результатов

Когда пользователь вводит запрос, наша система находит в индексе и показывает в результатах поиска самые подходящие страницы. При этом учитываются сотни различных факторов, и мы постоянно работаем над улучшением алгоритма. При ранжировании результатов имеет значение удобство просмотра, поэтому убедитесь, что ваш сайт быстро загружается и оптимизирован для мобильных устройств.

Как повысить эффективность ранжирования

  • Если вы ожидаете, что сайт будут просматривать пользователи из определенных регионов или носители определенных языков, сообщите об этом Google.
  • Обеспечьте быструю загрузку своего сайта и оптимизируйте его для мобильных устройств.
  • Следуйте рекомендациям для веб-мастеров, чтобы избежать распространенных ошибок и улучшить позиции своего сайта.
  • Попробуйте использовать структурированные данные для формирования расширенных результатов, например карточек с рецептами или статьями.
  • Примените технологию AMP, чтобы ускорить загрузку страниц на мобильных устройствах. Для некоторых AMP-страниц также доступны дополнительные функции, такие как карусель "Главные новости".
  • Поскольку алгоритм Google постоянно улучшается, не стоит пытаться разгадать его и соответствующим образом изменить свой сайт. Вместо этого создавайте хороший оригинальный контент, который понравится пользователям, и следуйте при этом нашим рекомендациям.

Для самых любознательных

Вы можете изучить ещё более подробные материалы, посвященные принципам работы Google Поиска (с иллюстрациями и видео).