Эта страница переведена с помощью Cloud Translation API.

Развертывание соединителя CSV

Внимание: эталонные коннекторы Cloud Search предоставляются «как есть» в виде примеров кода для создания собственных рабочих коннекторов. Этот пример кода требует существенной доработки и тестирования перед использованием в экспериментальных или производственных средах. Для использования в производственной среде мы настоятельно рекомендуем обратиться за помощью к одному из наших партнеров Cloud Search. Для получения помощи в поиске подходящего партнера свяжитесь со своим менеджером аккаунта Google.

Данное руководство предназначено для администраторов CSV-коннектора Google Cloud Search (значения, разделенные запятыми), ответственных за загрузку, настройку, запуск и мониторинг коннектора.

Данное руководство содержит инструкции по выполнению следующих ключевых задач:

Загрузите программное обеспечение для подключения к CSV-файлам Cloud Search.
Настройте коннектор для конкретного источника данных CSV.
Разверните и запустите коннектор.

Для понимания концепций, изложенных в этом документе, необходимо быть знакомым с Google Workspace, CSV-файлами и списками контроля доступа (ACL).

Обзор коннектора Cloud Search CSV

Коннектор Cloud Search для работы с CSV-файлами работает с любыми текстовыми файлами, разделенными запятыми (CSV-файлами). CSV-файл хранит табличные данные, где каждая строка представляет собой запись данных.

Коннектор извлекает строки из CSV-файла и индексирует их в Cloud Search с помощью API индексирования. После индексации строки становятся доступными для поиска через клиенты Cloud Search или API запросов. Коннектор также поддерживает списки контроля доступа (ACL) для управления доступом пользователей к контенту.

Коннектор можно установить на Linux или Windows. Перед развертыванием убедитесь, что у вас есть следующие компоненты:

На компьютере, где запущен коннектор, установлена Java JRE 1.8.
Информация о Google Workspace для установления соединений:
- Закрытый ключ Google Workspace (содержащий идентификатор учетной записи службы).
- Идентификатор источника данных Google Workspace .

Как правило, эти учетные данные предоставляет администратор Google Workspace для соответствующего домена.

Этапы развертывания

Для развертывания CSV-коннектора Cloud Search выполните следующие действия:

Установите программное обеспечение коннектора.
Укажите конфигурацию разъема.
Настройте доступ к источнику данных Cloud Search.
Настройка доступа к CSV-файлам
Укажите имена столбцов, уникальные ключи и столбцы с датами и временем.
Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.
Укажите форматы метаданных и столбцов.
Планирование обхода данных
Укажите параметры ACL.

1. Установите SDK.

Установите SDK в локальный репозиторий Maven.

Клонируйте репозиторий SDK с GitHub.

$ git clone https://github.com/google-cloudsearch/connector-sdk.git
$ cd connector-sdk/csv

Проверьте выбранную вами версию:
```
$ git checkout tags/v1-0.0.3
```
Создайте коннектор:
```
$ mvn package
```

Распакуйте и установите коннектор:

$ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
$ cd installation-dir
$ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
$ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Укажите конфигурацию CSV-коннектора.

Вы управляете поведением коннектора с помощью параметров в его конфигурационном файле. К настраиваемым параметрам относятся:

Доступ к источнику данных.
Расположение и определения CSV-файла.
Столбцы уникальных идентификаторов.
Параметры обхода и ACL.

Для создания файла конфигурации:

Откройте текстовый редактор и назовите файл connector-config.properties .
Добавляйте параметры конфигурации в виде пар key=value , при этом каждая пара должна располагаться на новой строке. Пример файла конфигурации см. в разделе «Пример файла конфигурации» .

Для упрощения отслеживания храните файл конфигурации в том же каталоге, что и коннектор. Чтобы коннектор распознал ваш файл, укажите его путь в командной строке. В противном случае коннектор по умолчанию будет использовать файл connector-config.properties из вашего локального каталога. См. раздел «Запуск коннектора» .

3. Настройте доступ к источнику данных Cloud Search.

В конфигурационном файле необходимо указать параметры для доступа к источнику данных Cloud Search. Вам потребуется идентификатор источника данных, идентификатор учетной записи службы и путь к файлу закрытого ключа учетной записи службы.

Параметр	Параметр
Идентификатор источника данных	`api.sourceId= 1234567890abcdef` Обязательно. Идентификатор источника Cloud Search, заданный администратором Google Workspace.
Путь к закрытому ключу учетной записи службы	`api.serviceAccountPrivateKeyFile= ./PrivateKey.json` Обязательно. Файл ключа учетной записи службы для обеспечения доступа к коннектору.
Идентификатор источника идентификации	`api.identitySourceId= x0987654321` Обязательно при использовании внешних пользователей и групп. Идентификатор источника идентификации, установленный администратором Google Workspace.

4. Настройка параметров CSV-файла

Укажите путь к файлу, его формат и кодировку.

Параметр	Параметр
Путь к CSV-файлу	`csv.filePath= ./movie_content.csv` Обязательно. Путь к файлу для индексирования.
Формат файла	`csv.format= DEFAULT` Формат файла. Возможные значения берутся из класса Apache Commons CSV CSVFormat . В качестве значений формата могут использоваться: `DEFAULT` , `EXCEL` , `INFORMIX_UNLOAD` , `INFORMIX_UNLOAD_CSV` , `MYSQL` , `RFC4180` , `ORACLE` , `POSTGRESQL_CSV` , `POSTGRESQL_TEXT` и `TDF` . Если значение не указано, Cloud Search использует `DEFAULT` .
Модификатор формата файла	`csv.format. withMethod = value` Изменение способа обработки файла в Cloud Search. Возможные методы взяты из класса Apache Commons CSV CSVFormat и включают в себя те, которые принимают один символ, строку или логическое значение. Например, чтобы указать точку с запятой в качестве разделителя, используйте `csv.format.withDelimiter=;` . Чтобы игнорировать пустые строки, используйте `csv.format.withIgnoreEmptyLines=true` .
Тип кодировки файла	`csv.fileEncoding= UTF-8` Кодировка символов Java для использования. По умолчанию используется кодировка символов платформы.

5. Укажите имена столбцов для индексации и столбцы уникального ключа.

Укажите информацию о столбцах в конфигурационном файле.

Параметр	Параметр
Столбцы для индексации	`csv.csvColumns= movieId,movieTitle,description,actors,releaseDate,year,userratings...` Названия столбцов, которые будут проиндексированы из CSV-файла. По умолчанию в качестве заголовка используется первая строка CSV-файла. Если указан параметр `csv.csvColumns` , он имеет приоритет. Чтобы избежать индексации первой строки как данных, если `csv.csvColumns` установлен и первая строка содержит заголовки, также установите `csv.skipHeaderRecord=true` .
Уникальные ключевые колонки	`csv.uniqueKeyColumns= movieId` Столбцы, используемые для генерации уникального идентификатора. По умолчанию используется хеш-код записи.

6. Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.

Включите кликабельные URL-адреса для результатов поиска.

Параметр	Параметр
Формат URL результатов поиска	`url.format= https://mymoviesite.com/movies/{0}` Обязательно. Формат, используемый для формирования URL-адреса просмотра.
Параметры URL	`url.columns= movieId` Обязательно. Названия столбцов CSV-файла, значения которых будут использоваться для генерации URL-адреса просмотра записи.
Параметры URL-адресов результатов поиска для экранирования	`url.columnsToEscape= movieId` Необязательно. Названия столбцов CSV-файла, значения которых будут экранированы для генерации допустимого URL-адреса для просмотра.

7. Укажите метаданные, форматы столбцов и качество поиска.

В файл конфигурации можно добавить параметры, указывающие на следующее:

Параметры конфигурации метаданных
Форматы столбцов
Качество поиска

Параметры конфигурации метаданных

Эти параметры описывают столбцы для заполнения метаданных элемента.

Параметр	Параметр
Заголовок	`itemMetadata.title.field= movieTitle` `itemMetadata.title.defaultValue= Gone with the Wind` Мета-атрибут для заголовка документа. По умолчанию — пустая строка.
URL	`itemMetadata.sourceRepositoryUrl.field= url` `itemMetadata.sourceRepositoryUrl.defaultValue= https://www.imdb.com/title/tt0031381/` Метаданные — атрибут URL-адреса документа в результатах поиска.
Отметка времени создания	`itemMetadata.createTime.field= releaseDate` `itemMetadata.createTime.defaultValue= 1940-01-17` Метаданные, содержащие метку времени создания документа.
Время последнего изменения	`itemMetadata.updateTime.field= releaseDate` `itemMetadata.updateTime.defaultValue= 1940-01-17` Метаданный атрибут, содержащий метку времени последнего изменения документа.
Язык документа	`itemMetadata.contentLanguage.field= languageCode` `itemMetadata.contentLanguage.defaultValue= en-US` Язык контента для индексируемых документов.
Тип объекта схемы	`itemMetadata.objectType.field= type` `itemMetadata.objectType.defaultValue= movie` Тип объекта, используемый коннектором, как определено в схеме . Коннектор не будет индексировать структурированные данные, если это свойство не указано.

Форматы даты и времени

Этот параметр задаёт дополнительные форматы даты и времени для преобразования строковых значений в поля даты или даты и времени.

Параметр Параметр

Дополнительные форматы даты и времени structuredData.dateTimePatterns= MM/dd/uuuu HH:mm:ssXXX
Список дополнительных шаблонов java.time.format.DateTimeFormatter , разделённых точкой с запятой . Эти шаблоны используются при разборе строковых значений любых полей даты или времени в метаданных или схеме. Значение по умолчанию — пустой список, но форматы RFC 3339 и RFC 1123 всегда поддерживаются.

Форматы столбцов

Эти параметры определяют, как анализировать столбцы в CSV-файле.

Параметр	Параметр
Пропустить заголовок	`csv.skipHeaderRecord=true` Первую строку игнорировать. Значение по умолчанию — false.
Многозначные столбцы	`csv.multiValueColumns= genre,actors` Названия столбцов с несколькими значениями.
Разделитель для столбцов с несколькими значениями	`csv.multiValue.genre= ;` Разделитель для столбцов, содержащих несколько значений. Разделитель по умолчанию — запятая.

Качество поиска

Коннектор использует шаблон контента для форматирования записей. Поле «Заголовок» имеет наивысший приоритет. Вы можете назначить уровни приоритета (высокий, средний, низкий) другим полям.

Параметр	Параметр
Заголовок содержимого	`contentTemplate.csv.title= movieTitle` Заголовок контента — это поле, обеспечивающее наивысший поисковый рейтинг.
Высокое качество поиска по областям контента.	`contentTemplate.csv.quality.high= actors` Поля контента, которым присвоено высокое значение качества поиска. По умолчанию — пустая строка.
Низкое качество поиска по полям контента.	`contentTemplate.csv.quality.low= genre` Поля контента, которым присвоено низкое значение качества поиска. По умолчанию — пустая строка.
Среднее качество поиска по полям контента.	`contentTemplate.csv.quality.medium= description` Поля контента имеют средний уровень качества поиска. По умолчанию — пустая строка.
Неуказанные поля содержимого	`contentTemplate.csv.unmappedColumnsMode= IGNORE` Как коннектор обрабатывает неуказанные поля содержимого. Допустимые значения: APPEND — добавить в шаблон неуказанные поля содержимого. ИГНОРИРОВАТЬ — игнорировать неуказанные поля содержимого Значение по умолчанию — APPEND.

8. Планирование обхода данных

Обход — это процесс обнаружения контента. Коннектор обходит строки CSV-файла и индексирует их с помощью API индексирования. Коннектор CSV выполняет только полный обход.

Параметр	Параметр
Интервал прохождения	`schedule.traversalIntervalSecs = 7200` Интервал между полными проходами в секундах. Значение по умолчанию — 86400 (один день).
Обход на этапе запуска	`schedule.performTraversalOnStart = false` Коннектор выполняет обход при запуске, а не ждет истечения первого интервала. Значение по умолчанию — `true.`

9. Укажите параметры ACL.

Коннектор использует списки контроля доступа (ACL) для управления доступом. Если ваш репозиторий предоставляет списки ACL, загрузите их. В противном случае настройте списки ACL по умолчанию. Установите значение defaultAcl.mode , отличное от none .

Параметр	Параметр
режим ACL	`defaultAcl.mode =fallback` Обязательно. Коннектор поддерживает только резервный режим.
Имя ACL по умолчанию	defaultAcl.name = `VIRTUAL_CONTAINER_FOR_CONNECTOR_1` Необязательный параметр. Переопределяет имя виртуального контейнера, используемого коннектором для списков контроля доступа по умолчанию. Значение по умолчанию — `DEFAULT_ACL_VIRTUAL_CONTAINER` . Рекомендуется переопределить это значение, если несколько коннекторов индексируют контент в одном и том же источнике данных.
ACL по умолчанию для общего доступа	`defaultAcl.public = true` Устанавливает для всего репозитория режим публичного доступа. Значение по умолчанию — false.
Общие рекомендации группы ACL по чтению	`defaultAcl.readers.groups = google: group1, group2`
Обычные читатели ACL	`defaultAcl.readers.users = user1, user2, google: user3`
Общедоступный ACL запретил групповое чтение	`defaultAcl.denied.groups = group3`
Обычная передняя крестообразная связка (ПКС) недоступна для читателей.	`defaultAcl.denied.users = user4, user5`
Доступ ко всему домену	Чтобы указать, что каждая проиндексированная запись должна быть общедоступна для каждого пользователя в домене, задайте значения для обоих следующих параметров: `defaultAcl.mode =fallback` `defaultAcl.public =true`
Общепринятое определение передней крестообразной связки	Чтобы задать общий список контроля доступа (ACL) для каждой записи, установите следующие параметры: `defaultAcl.mode =fallback` `defaultAcl.public =false` `defaultAcl.readers.groups = google: group1, group2` `defaultAcl.readers.users = user1, user2, google: user3` `defaultAcl.denied.groups = group3` `defaultAcl.denied.users = user4, user5` Считается, что пользователи и группы определены в локальном домене, если только они не имеют префикса " `google:` ". По умолчанию имя пользователя или группы — пустая строка. Указывайте параметры пользователя и группы только в том случае, если `defaultAcl.public` имеет `false` . Используйте список, разделенный запятыми, для нескольких групп и пользователей. Если `defaultAcl.mode` равно `none` , поиск записей невозможен без индивидуальных списков контроля доступа (ACL).

Определение схемы

Для поддержки запросов к структурированным данным настройте схему для вашего источника данных.

Например, рассмотрим CSV-файл, содержащий следующую информацию о фильмах:

movieId
movieTitle
описание
год
Дата выпуска
акторы (несколько значений, разделенных запятой (,))
жанр (несколько значений)
рейтинги

Исходя из этой структуры, вы можете определить следующую схему для вашего источника данных:

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Пример файла конфигурации

В приведенном ниже примере конфигурационного файла показаны пары key=value параметров, определяющие поведение примера коннектора.

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Запустите коннектор

Для запуска коннектора из командной строки:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

По умолчанию журналы коннектора доступны в стандартном выводе. Вы можете записывать журналы в файлы, указав это в файле logging.properties .

Данное руководство содержит инструкции по выполнению следующих ключевых задач:

Загрузите программное обеспечение для подключения к CSV-файлам Cloud Search.
Настройте коннектор для конкретного источника данных CSV.
Разверните и запустите коннектор.

Обзор коннектора Cloud Search CSV

На компьютере, где запущен коннектор, установлена Java JRE 1.8.
Информация о Google Workspace для установления соединений:
- Закрытый ключ Google Workspace (содержащий идентификатор учетной записи службы).
- Идентификатор источника данных Google Workspace .

Как правило, эти учетные данные предоставляет администратор Google Workspace для соответствующего домена.

Этапы развертывания

Для развертывания CSV-коннектора Cloud Search выполните следующие действия:

Установите программное обеспечение коннектора.
Укажите конфигурацию разъема.
Настройте доступ к источнику данных Cloud Search.
Настройка доступа к CSV-файлам
Укажите имена столбцов, уникальные ключи и столбцы с датами и временем.
Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.
Укажите форматы метаданных и столбцов.
Планирование обхода данных
Укажите параметры ACL.

1. Установите SDK.

Установите SDK в локальный репозиторий Maven.

Клонируйте репозиторий SDK с GitHub.

$ git clone https://github.com/google-cloudsearch/connector-sdk.git
$ cd connector-sdk/csv

Проверьте выбранную вами версию:
```
$ git checkout tags/v1-0.0.3
```
Создайте коннектор:
```
$ mvn package
```

Распакуйте и установите коннектор:

$ cp target/google-cloudsearch-csv-connector-v1-0.0.3.zip installation-dir
$ cd installation-dir
$ unzip google-cloudsearch-csv-connector-v1-0.0.3.zip
$ cd google-cloudsearch-csv-connector-v1-0.0.3

2. Укажите конфигурацию CSV-коннектора.

Доступ к источнику данных.
Расположение и определения CSV-файла.
Столбцы уникальных идентификаторов.
Параметры обхода и ACL.

Для создания файла конфигурации:

Откройте текстовый редактор и назовите файл connector-config.properties .
Добавляйте параметры конфигурации в виде пар key=value , при этом каждая пара должна располагаться на новой строке. Пример файла конфигурации см. в разделе «Пример файла конфигурации» .

3. Настройте доступ к источнику данных Cloud Search.

Параметр	Параметр
Идентификатор источника данных	`api.sourceId= 1234567890abcdef` Обязательно. Идентификатор источника Cloud Search, заданный администратором Google Workspace.
Путь к закрытому ключу учетной записи службы	`api.serviceAccountPrivateKeyFile= ./PrivateKey.json` Обязательно. Файл ключа учетной записи службы для обеспечения доступа к коннектору.
Идентификатор источника идентификации	`api.identitySourceId= x0987654321` Обязательно при использовании внешних пользователей и групп. Идентификатор источника идентификации, установленный администратором Google Workspace.

4. Настройка параметров CSV-файла

Укажите путь к файлу, его формат и кодировку.

Параметр	Параметр
Путь к CSV-файлу	`csv.filePath= ./movie_content.csv` Обязательно. Путь к файлу для индексирования.
Формат файла	`csv.format= DEFAULT` Формат файла. Возможные значения берутся из класса Apache Commons CSV CSVFormat . В качестве значений формата могут использоваться: `DEFAULT` , `EXCEL` , `INFORMIX_UNLOAD` , `INFORMIX_UNLOAD_CSV` , `MYSQL` , `RFC4180` , `ORACLE` , `POSTGRESQL_CSV` , `POSTGRESQL_TEXT` и `TDF` . Если значение не указано, Cloud Search использует `DEFAULT` .
Модификатор формата файла	`csv.format. withMethod = value` Изменение способа обработки файла в Cloud Search. Возможные методы взяты из класса Apache Commons CSV CSVFormat и включают в себя те, которые принимают один символ, строку или логическое значение. Например, чтобы указать точку с запятой в качестве разделителя, используйте `csv.format.withDelimiter=;` . Чтобы игнорировать пустые строки, используйте `csv.format.withIgnoreEmptyLines=true` .
Тип кодировки файла	`csv.fileEncoding= UTF-8` Кодировка символов Java для использования. По умолчанию используется кодировка символов платформы.

5. Укажите имена столбцов для индексации и столбцы уникального ключа.

Укажите информацию о столбцах в конфигурационном файле.

Параметр	Параметр
Столбцы для индексации	`csv.csvColumns= movieId,movieTitle,description,actors,releaseDate,year,userratings...` Названия столбцов, которые будут проиндексированы из CSV-файла. По умолчанию в качестве заголовка используется первая строка CSV-файла. Если указан параметр `csv.csvColumns` , он имеет приоритет. Чтобы избежать индексации первой строки как данных, если `csv.csvColumns` установлен и первая строка содержит заголовки, также установите `csv.skipHeaderRecord=true` .
Уникальные ключевые колонки	`csv.uniqueKeyColumns= movieId` Столбцы, используемые для генерации уникального идентификатора. По умолчанию используется хеш-код записи.

6. Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.

Включите кликабельные URL-адреса для результатов поиска.

Параметр	Параметр
Формат URL результатов поиска	`url.format= https://mymoviesite.com/movies/{0}` Обязательно. Формат, используемый для формирования URL-адреса просмотра.
Параметры URL	`url.columns= movieId` Обязательно. Названия столбцов CSV-файла, значения которых будут использоваться для генерации URL-адреса просмотра записи.
Параметры URL-адресов результатов поиска для экранирования	`url.columnsToEscape= movieId` Необязательно. Названия столбцов CSV-файла, значения которых будут экранированы для генерации допустимого URL-адреса для просмотра.

7. Укажите метаданные, форматы столбцов и качество поиска.

В файл конфигурации можно добавить параметры, указывающие на следующее:

Параметры конфигурации метаданных
Форматы столбцов
Качество поиска

Параметры конфигурации метаданных

Эти параметры описывают столбцы для заполнения метаданных элемента.

Параметр	Параметр
Заголовок	`itemMetadata.title.field= movieTitle` `itemMetadata.title.defaultValue= Gone with the Wind` Мета-атрибут для заголовка документа. По умолчанию — пустая строка.
URL	`itemMetadata.sourceRepositoryUrl.field= url` `itemMetadata.sourceRepositoryUrl.defaultValue= https://www.imdb.com/title/tt0031381/` Метаданные — атрибут URL-адреса документа в результатах поиска.
Отметка времени создания	`itemMetadata.createTime.field= releaseDate` `itemMetadata.createTime.defaultValue= 1940-01-17` Метаданные, содержащие метку времени создания документа.
Время последнего изменения	`itemMetadata.updateTime.field= releaseDate` `itemMetadata.updateTime.defaultValue= 1940-01-17` Метаданный атрибут, содержащий метку времени последнего изменения документа.
Язык документа	`itemMetadata.contentLanguage.field= languageCode` `itemMetadata.contentLanguage.defaultValue= en-US` Язык контента для индексируемых документов.
Тип объекта схемы	`itemMetadata.objectType.field= type` `itemMetadata.objectType.defaultValue= movie` Тип объекта, используемый коннектором, как определено в схеме . Коннектор не будет индексировать структурированные данные, если это свойство не указано.

Форматы даты и времени

Параметр Параметр

Форматы столбцов

Эти параметры определяют, как анализировать столбцы в CSV-файле.

Параметр	Параметр
Пропустить заголовок	`csv.skipHeaderRecord=true` Первую строку игнорировать. Значение по умолчанию — false.
Многозначные столбцы	`csv.multiValueColumns= genre,actors` Названия столбцов с несколькими значениями.
Разделитель для столбцов с несколькими значениями	`csv.multiValue.genre= ;` Разделитель для столбцов, содержащих несколько значений. Разделитель по умолчанию — запятая.

Качество поиска

Параметр	Параметр
Заголовок содержимого	`contentTemplate.csv.title= movieTitle` Заголовок контента — это поле, обеспечивающее наивысший поисковый рейтинг.
Высокое качество поиска по областям контента.	`contentTemplate.csv.quality.high= actors` Поля контента, которым присвоено высокое значение качества поиска. По умолчанию — пустая строка.
Низкое качество поиска по полям контента.	`contentTemplate.csv.quality.low= genre` Поля контента, которым присвоено низкое значение качества поиска. По умолчанию — пустая строка.
Среднее качество поиска по полям контента.	`contentTemplate.csv.quality.medium= description` Поля контента имеют средний уровень качества поиска. По умолчанию — пустая строка.
Неуказанные поля содержимого	`contentTemplate.csv.unmappedColumnsMode= IGNORE` Как коннектор обрабатывает неуказанные поля содержимого. Допустимые значения: APPEND — добавить в шаблон неуказанные поля содержимого. ИГНОРИРОВАТЬ — игнорировать неуказанные поля содержимого Значение по умолчанию — APPEND.

8. Планирование обхода данных

Параметр	Параметр
Интервал прохождения	`schedule.traversalIntervalSecs = 7200` Интервал между полными проходами в секундах. Значение по умолчанию — 86400 (один день).
Обход на этапе запуска	`schedule.performTraversalOnStart = false` Коннектор выполняет обход при запуске, а не ждет истечения первого интервала. Значение по умолчанию — `true.`

9. Укажите параметры ACL.

Параметр	Параметр
режим ACL	`defaultAcl.mode =fallback` Обязательно. Коннектор поддерживает только резервный режим.
Имя ACL по умолчанию	defaultAcl.name = `VIRTUAL_CONTAINER_FOR_CONNECTOR_1` Необязательный параметр. Переопределяет имя виртуального контейнера, используемого коннектором для списков контроля доступа по умолчанию. Значение по умолчанию — `DEFAULT_ACL_VIRTUAL_CONTAINER` . Рекомендуется переопределить это значение, если несколько коннекторов индексируют контент в одном и том же источнике данных.
ACL по умолчанию для общего доступа	`defaultAcl.public = true` Устанавливает для всего репозитория режим публичного доступа. Значение по умолчанию — false.
Общие рекомендации группы ACL по чтению	`defaultAcl.readers.groups = google: group1, group2`
Обычные читатели ACL	`defaultAcl.readers.users = user1, user2, google: user3`
Общедоступный ACL запретил групповое чтение	`defaultAcl.denied.groups = group3`
Обычная передняя крестообразная связка (ПКС) недоступна для читателей.	`defaultAcl.denied.users = user4, user5`
Доступ ко всему домену	Чтобы указать, что каждая проиндексированная запись должна быть общедоступна для каждого пользователя в домене, задайте значения для обоих следующих параметров: `defaultAcl.mode =fallback` `defaultAcl.public =true`
Общепринятое определение передней крестообразной связки	Чтобы задать общий список контроля доступа (ACL) для каждой записи, установите следующие параметры: `defaultAcl.mode =fallback` `defaultAcl.public =false` `defaultAcl.readers.groups = google: group1, group2` `defaultAcl.readers.users = user1, user2, google: user3` `defaultAcl.denied.groups = group3` `defaultAcl.denied.users = user4, user5` Считается, что пользователи и группы определены в локальном домене, если только они не имеют префикса " `google:` ". По умолчанию имя пользователя или группы — пустая строка. Указывайте параметры пользователя и группы только в том случае, если `defaultAcl.public` имеет `false` . Используйте список, разделенный запятыми, для нескольких групп и пользователей. Если `defaultAcl.mode` равно `none` , поиск записей невозможен без индивидуальных списков контроля доступа (ACL).

Определение схемы

Для поддержки запросов к структурированным данным настройте схему для вашего источника данных.

Например, рассмотрим CSV-файл, содержащий следующую информацию о фильмах:

movieId
movieTitle
описание
год
Дата выпуска
акторы (несколько значений, разделенных запятой (,))
жанр (несколько значений)
рейтинги

Исходя из этой структуры, вы можете определить следующую схему для вашего источника данных:

{
  "objectDefinitions": [
    {
      "name": "movie",
      "propertyDefinitions": [
        {
          "name": "actors",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "textPropertyOptions": {
            "operatorOptions": {
              "operatorName": "actor"
            }
          }
        },
        {
          "name": "releaseDate",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "datePropertyOptions": {
            "operatorOptions": {
              "operatorName": "released",
              "lessThanOperatorName": "releasedbefore",
              "greaterThanOperatorName": "releasedafter"
            }
          }
        },
        {
          "name": "movieTitle",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": false,
          "textPropertyOptions": {
            "retrievalImportance": {
              "importance": "HIGHEST"
            },
            "operatorOptions": {
              "operatorName": "title"
            }
          }
        },
        {
          "name": "genre",
          "isReturnable": true,
          "isRepeatable": true,
          "isFacetable": true,
          "enumPropertyOptions": {
            "operatorOptions": {
              "operatorName": "genre"
            },
            "possibleValues": [
              {
                "stringValue": "Action"
              },
              {
                "stringValue": "Documentary"
              },
              {
                "stringValue": "Drama"
              },
              {
                "stringValue": "Crime"
              },
              {
                "stringValue": "Sci-fi"
              }
            ]
          }
        },
        {
          "name": "userRating",
          "isReturnable": true,
          "isRepeatable": false,
          "isFacetable": true,
          "integerPropertyOptions": {
            "orderedRanking": "ASCENDING",
            "maximumValue": "10",
            "operatorOptions": {
              "operatorName": "score",
              "lessThanOperatorName": "scorebelow",
              "greaterThanOperatorName": "scoreabove"
            }
          }
        }
      ]
    }
  ]
}

Пример файла конфигурации

# data source access
api.sourceId=1234567890abcd
api.serviceAccountPrivateKeyFile=./PrivateKey.json

# CSV data structure
csv.filePath=./movie_content.csv
csv.csvColumns=movieId,movieTitle,description,releaseYear,genre,actors,ratings,releaseDate
csv.skipHeaderRecord=true
url.format=https://mymoviesite.com/movies/{0}
url.columns=movieId
csv.datetimeFormat.releaseDate=yyyy-mm-dd
csv.multiValueColumns=genre,actors
csv.multiValue.genre=;
contentTemplate.csv.title=movieTitle

# metadata structured data and content
itemMetadata.title.field=movieTitle
itemMetadata.createTime.field=releaseDate
itemMetadata.contentLanguage.defaultValue=en-US
itemMetadata.objectType.defaultValue=movie
contentTemplate.csv.quality.medium=description
contentTemplate.csv.unmappedColumnsMode=IGNORE

#ACLs
defaultAcl.mode=fallback
defaultAcl.public=true

Запустите коннектор

Для запуска коннектора из командной строки:

$ java -jar google-cloudsearch-csv-connector-v1-0.0.3.jar -Dconfig=my.config

Развертывание соединителя CSV Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

Обзор коннектора Cloud Search CSV

Этапы развертывания

1. Установите SDK.

2. Укажите конфигурацию CSV-коннектора.

3. Настройте доступ к источнику данных Cloud Search.

4. Настройка параметров CSV-файла

5. Укажите имена столбцов для индексации и столбцы уникального ключа.

6. Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.

7. Укажите метаданные, форматы столбцов и качество поиска.

Параметры конфигурации метаданных

Форматы даты и времени

Форматы столбцов

Качество поиска

8. Планирование обхода данных

9. Укажите параметры ACL.

Определение схемы

Пример файла конфигурации

Запустите коннектор

Обзор коннектора Cloud Search CSV

Этапы развертывания

1. Установите SDK.

2. Укажите конфигурацию CSV-коннектора.

3. Настройте доступ к источнику данных Cloud Search.

4. Настройка параметров CSV-файла

5. Укажите имена столбцов для индексации и столбцы уникального ключа.

6. Укажите столбцы для URL-адресов результатов поиска, по которым можно перейти по ссылке.

7. Укажите метаданные, форматы столбцов и качество поиска.

Параметры конфигурации метаданных

Форматы даты и времени

Форматы столбцов

Качество поиска

8. Планирование обхода данных

9. Укажите параметры ACL.

Определение схемы

Пример файла конфигурации

Запустите коннектор

Развертывание соединителя CSV