Эта страница переведена с помощью Cloud Translation API.

Создание соединителя содержимого

Коннектор контента — это программа, используемая для перемещения данных в репозитории предприятия и заполнения источника данных. Google предоставляет следующие возможности для разработки коннекторов контента:

SDK Content Connector. Это хороший вариант, если вы программируете на Java. Content Connector SDK — это оболочка REST API, позволяющая быстро создавать соединители. Чтобы создать соединитель контента с помощью SDK, см. раздел Создание соединителя контента с помощью SDK Content Connector .
Низкоуровневый REST API или библиотеки API. Используйте эти параметры, если вы не программируете на Java или если ваша кодовая база лучше подходит для REST API или библиотеки. Чтобы создать соединитель контента с помощью REST API, см. раздел Создание соединителя контента с помощью REST API .

Типичный соединитель контента выполняет следующие задачи:

Считывает и обрабатывает параметры конфигурации.
Извлекает отдельные фрагменты индексируемых данных, называемые « элементами », из стороннего репозитория контента.
Объединяет списки управления доступом, метаданные и данные контента в индексируемые элементы.
Индексирует элементы в источник данных Cloud Search.
(необязательно) Прослушивает уведомления об изменениях из стороннего репозитория контента. Уведомления об изменениях преобразуются в запросы на индексирование, чтобы обеспечить синхронизацию источника данных Cloud Search со сторонним репозиторием. Соединитель выполняет эту задачу только в том случае, если репозиторий поддерживает обнаружение изменений.

Создайте соединитель контента с помощью SDK Content Connector.

В следующих разделах объясняется, как создать соединитель контента с помощью Content Connector SDK.

Настройка зависимостей

Чтобы использовать SDK, вы должны включить определенные зависимости в файл сборки. Нажмите на вкладку ниже, чтобы просмотреть зависимости для вашей среды сборки:

Мавен

<dependency>
<groupId>com.google.enterprise.cloudsearch</groupId>
<artifactId>google-cloudsearch-indexing-connector-sdk</artifactId>
<version>v1-0.0.3</version>
</dependency>

Градл

compile group: 'com.google.enterprise.cloudsearch',
        name: 'google-cloudsearch-indexing-connector-sdk',
        version: 'v1-0.0.3'

Создайте конфигурацию соединителя

У каждого соединителя есть файл конфигурации, содержащий параметры, используемые соединителем, например идентификатор вашего репозитория. Параметры определяются как пары ключ-значение , например api.sourceId= 1234567890abcdef .

SDK Google Cloud Search содержит несколько предоставленных Google параметров конфигурации, используемых всеми соединителями. Вы должны объявить следующие параметры, предоставленные Google, в вашем файле конфигурации:

Для соединителя контента необходимо объявить api.sourceId и api.serviceAccountPrivateKeyFile поскольку эти параметры определяют расположение вашего репозитория и закрытый ключ, необходимый для доступа к репозиторию.

Для соединителя удостоверений необходимо объявить api.identitySourceId поскольку этот параметр определяет расположение вашего внешнего источника удостоверений. Если вы синхронизируете пользователей, вы также должны объявить api.customerId в качестве уникального идентификатора учетной записи Google Workspace вашего предприятия.

Если вы не хотите переопределить значения по умолчанию для других параметров, предоставленных Google, вам не нужно объявлять их в файле конфигурации. Дополнительную информацию о параметрах конфигурации, предоставляемых Google, например о том, как генерировать определенные идентификаторы и ключи, см. в разделе Параметры конфигурации, предоставляемые Google .

Вы также можете определить свои собственные параметры, специфичные для репозитория, для использования в файле конфигурации.

Передайте файл конфигурации в коннектор

Настройте системное свойство config для передачи файла конфигурации в соединитель. Вы можете установить это свойство, используя аргумент -D при запуске коннектора. Например, следующая команда запускает соединитель с файлом конфигурации MyConfig.properties :

java -classpath myconnector.jar;... -Dconfig=MyConfig.properties MyConnector

Если этот аргумент отсутствует, SDK пытается получить доступ к файлу конфигурации по умолчанию с именем connector-config.properties .

Определите свою стратегию обхода

Основная функция соединителя контента — перемещение по репозиторию и индексирование его данных. Вы должны реализовать стратегию обхода, основанную на размере и расположении данных в вашем репозитории. Вы можете разработать собственную стратегию или выбрать одну из следующих стратегий, реализованных в SDK:

Полная стратегия обхода

Стратегия полного обхода сканирует весь репозиторий и слепо индексирует каждый элемент. Эта стратегия обычно используется, когда у вас небольшой репозиторий и вы можете позволить себе полный обход при каждом индексировании.

Эта стратегия обхода подходит для небольших репозиториев, в основном содержащих статичные, неиерархические данные. Вы также можете использовать эту стратегию обхода, когда обнаружение изменений затруднено или не поддерживается репозиторием.

Стратегия обхода списка

Стратегия обхода списка сканирует весь репозиторий, включая все дочерние узлы, определяя статус каждого элемента. Затем соединитель выполняет второй проход и индексирует только те элементы, которые являются новыми или были обновлены с момента последней индексации. Эта стратегия обычно используется для выполнения дополнительных обновлений существующего индекса (вместо необходимости выполнять полный обход каждый раз при обновлении индекса).

Эта стратегия обхода подходит, когда обнаружение изменений затруднено или не поддерживается репозиторием, у вас есть неиерархические данные и вы работаете с очень большими наборами данных.

Обход графа

Стратегия обхода графа сканирует весь родительский узел, определяя статус каждого элемента. Затем соединитель выполняет второй проход и индексирует только элементы в корневом узле, которые являются новыми или были обновлены с момента последней индексации. Наконец, соединитель передает все дочерние идентификаторы, а затем индексирует новые или обновленные элементы в дочерних узлах. Соединитель продолжает рекурсивно проходить через все дочерние узлы, пока все элементы не будут адресованы. Такой обход обычно используется для иерархических репозиториев, где перечисление всех идентификаторов нецелесообразно.

Эта стратегия подходит, если у вас есть иерархические данные, которые необходимо сканировать, например ряд каталогов или веб-страниц.

Каждая из этих стратегий обхода реализуется классом соединителя шаблонов в SDK. Хотя вы можете реализовать свою собственную стратегию обхода, эти шаблоны значительно ускоряют разработку вашего соединителя. Чтобы создать коннектор по шаблону, перейдите в раздел, соответствующий вашей стратегии обхода:

Создайте соединитель полного обхода, используя класс шаблона.
Создайте соединитель обхода списка, используя класс шаблона.
Создайте соединитель обхода графа, используя класс шаблона.

Создайте соединитель полного обхода, используя класс шаблона.

Этот раздел документации относится к фрагментам кода из примера FullTraversalSample .

Реализация точки входа соединителя

Точкой входа в коннектор является метод main() . Основная задача этого метода — создать экземпляр класса Application и вызвать его метод start() для запуска соединителя.

Прежде чем вызывать application.start() , используйте класс IndexingApplication.Builder для создания экземпляра шаблона FullTraversalConnector . FullTraversalConnector принимает объект Repository , методы которого вы реализуете. Следующий фрагмент кода показывает, как реализовать метод main() :

Фуллтраверсалсампле.java

Создание соединителя содержимого

Создайте соединитель контента с помощью SDK Content Connector.

Настройка зависимостей

Мавен

Градл

Создайте конфигурацию соединителя

Передайте файл конфигурации в коннектор

Определите свою стратегию обхода

Создайте соединитель полного обхода, используя класс шаблона.

Реализация точки входа соединителя

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить полный обход

Установите разрешения для элемента

Установите метаданные для элемента

Создайте индексируемый элемент

Упакуйте каждый индексируемый элемент в итератор

Следующие шаги

Создайте соединитель обхода списка, используя класс шаблона.

Реализация точки входа соединителя

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить обход списка

Отправка идентификаторов элементов и хеш-значений

Извлекайте и обрабатывайте каждый элемент

Обработка удаленных элементов

Обработка неизмененных элементов

Установите разрешения для элемента

Установите метаданные для элемента

Создать индексируемый элемент

Следующие шаги

Создайте соединитель обхода графа, используя класс шаблона.

Реализация точки входа соединителя

Реализовать интерфейс Repository

Получить пользовательские параметры конфигурации

Выполнить обход графа

Отправка идентификаторов элементов и хеш-значений

Извлекайте и обрабатывайте каждый элемент

Обработка удаленных элементов

Установите разрешения для элемента

Установите метаданные для элемента

Создайте индексируемый элемент

Поместите дочерние идентификаторы в очередь индексирования Cloud Search.

Следующие шаги

Создайте соединитель контента с помощью REST API.

Определите свою стратегию обхода

Реализуйте свою стратегию обхода и индексируйте элементы

Обработка изменений в репозитории

Реализовать интерфейс `Repository`

Реализовать интерфейс `Repository`

Реализовать интерфейс `Repository`