Эта страница переведена с помощью Cloud Translation API.

Развертывание подключаемого модуля индексатора HTTP Collector Norconex

Внимание: эталонные коннекторы Cloud Search предоставляются «как есть» в виде примеров кода для создания собственных рабочих коннекторов. Этот пример кода требует существенной доработки и тестирования перед использованием в экспериментальных или производственных средах. Для использования в производственной среде мы настоятельно рекомендуем обратиться за помощью к одному из наших партнеров Cloud Search. Чтобы найти партнера, свяжитесь со своим менеджером аккаунта Google.

Данное руководство предназначено для администраторов, ответственных за загрузку, развертывание и обслуживание плагина индексатора Norconex HTTP Collector для Google Cloud Search. Вам необходимо быть знакомым с Linux, основами веб-сканирования, XML и Norconex HTTP Collector .

Данное руководство содержит инструкции по:

Загрузите программное обеспечение плагина индексатора.
Настройте облачный поиск.
Настройте сборщик HTTP-запросов Norconex и веб-краулинг.
Запустите сканирование веб-страниц и загрузите контент.

Информация о задачах, которые должен выполнять администратор Google Workspace, в этом руководстве отсутствует. Дополнительную информацию об этих задачах см. в разделе «Управление сторонними источниками данных» .

Обзор плагина индексатора Norconex HTTP Collector

По умолчанию Cloud Search может обнаруживать, индексировать и предоставлять контент из продуктов Google Workspace, таких как Google Docs и Gmail. Вы можете расширить эту возможность, включив в нее веб-контент, развернув плагин индексатора для Norconex HTTP Collector , веб-краулера с открытым исходным кодом для корпоративного использования.

файлы свойств конфигурации

Для того чтобы плагин мог сканировать и загружать контент, необходимо указать определенную информацию в двух конфигурационных файлах:

{gcs-crawl-config.xml} : настройки для Norconex HTTP Collector.
sdk-configuration.properties : настройки для Cloud Search.

Сканирование веб-сайтов и загрузка контента.

После заполнения конфигурационных файлов можно запустить веб-сканирование . Norconex HTTP Collector сканирует веб-сайты и загружает исходное двоичное или текстовое содержимое документов в API индексирования Cloud Search.

Системные требования

Операционная система : только Linux.
Версия Norconex : 2.8.0.
Программное обеспечение : Java JRE 1.8.

Поддержка ACL

Плагин индексатора поддерживает списки контроля доступа (ACL) для управления доступом к документам в домене Google Workspace.

Если вы включите списки контроля доступа (ACL) по умолчанию в конфигурации плагина ( defaultAcl.mode установить значение, отличное от none ), плагин будет применять эти значения по умолчанию. В противном случае плагин предоставит разрешение на чтение для всего домена. См. параметры коннектора, предоставленные Google .

Предварительные требования

Перед развертыванием плагина индексатора соберите следующие компоненты:

Закрытый ключ Google Workspace (содержащий идентификатор учетной записи службы). См. раздел «Настройка доступа к API Cloud Search» .
Идентификатор источника данных Google Workspace. См. раздел «Управление сторонними источниками данных» .

Этапы развертывания

Установите Norconex HTTP Collector и плагин к нему.
Настройка облачного поиска
Настройка сборщика HTTP-запросов Norconex
Настройка сканирования веб-страниц
Запустить сканирование веб-страниц и загрузку контента.

Шаг 1: Установите Norconex HTTP Collector и плагин к нему.

Загрузите программное обеспечение Norconex для управления транзакциями со страницы загрузок Norconex.
Распакуйте программное обеспечение в папку ~/norconex/ .

Клонируйте плагин для создания коммитов:

git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
cd norconex-committer-plugin

Выберите нужную вам версию и соберите плагин:
```
git checkout tags/v1-0.0.3
mvn package
```
Чтобы пропустить тесты, используйте команду mvn package -DskipTests .`.

Скопируйте JAR-файл в каталог lib компании Norconex:

cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib

Распакуйте созданный ZIP-файл:

unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3

Запустите скрипт установки и укажите полный путь к каталогу lib компании Norconex:
```
sh install.sh
```
Если появится запрос на поиск дубликатов файлов, выберите вариант 1 .

Шаг 2: Настройка облачного поиска

Создайте sdk-configuration.properties в каталоге Norconex. В файле должны быть указаны следующие параметры:

Параметр	Параметр
Идентификатор источника данных	`api.sourceId = 1234567890abcdef` Обязательно. Идентификатор источника из административной панели вашего рабочего пространства Google.
Служебный аккаунт	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Обязательно. Файл ключа учетной записи службы.

Пример файла sdk-configuration.properties :

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Вы также можете добавить параметры, например batch.* , чтобы контролировать способ передачи данных плагином. См. параметры коннектора, предоставленные Google .

Для заполнения метаданных настройте следующие необязательные параметры:

Параметр	Параметр
Заголовок	`itemMetadata.title.field= movieTitle`
Тип объекта схемы	`itemMetadata.objectType= movie`

Шаг 3: Настройка сборщика HTTP-запросов Norconex

Плагин включает в себя пример файла minimum-config.xml .

Перейдите в каталог Norconex и скопируйте образец:

cd ~/norconex/norconex-collector-http-VERSION/
cp examples/minimum/minimum-config.xml gcs-crawl-config.xml

Отредактируйте gcs-crawl-config.xml , чтобы добавить или заменить узлы <committer> и <tagger> :

Параметр	Параметр
`<committer>` узел	`<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">` Обязательно. Добавьте это под узел `<httpcollector>` .
`<uploadFormat>`	`<uploadFormat>raw</uploadFormat>` Необязательно. `raw` или `text` . По умолчанию используется `raw` .

Пример файла gcs-crawl-config.xml :

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Шаг 4: Настройка веб-сканирования

Настройте узлы <crawler> в соответствии с вашими потребностями, включая:

Начальные URL-адреса
Максимальная глубина ползания
Количество потоков

См. страницу настроек Norconex .

Шаг 5: Запустите сканирование веб-страниц и загрузку контента.

Запустите сборщик данных в локальном режиме:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Отслеживайте работу веб-краулера с помощью JEF Monitor.

Norconex JEF (Job Execution Framework) Monitor предоставляет графическое отображение хода выполнения. См. раздел «Мониторинг вашего веб-краулера с помощью JEF Monitor» .