Wdrażanie wtyczki Norconex HTTP Collector Indexer

Ten przewodnik jest przeznaczony dla administratorów wtyczki Google Cloud Search Norconex do indeksowania wtyczki HTTP Collector, czyli wszystkich osób odpowiedzialnych za pobieranie, wdrażanie, konfigurowanie i obsługę wtyczki indeksującego. Zakładamy w nim, że znasz systemy operacyjne Linux, podstawy indeksowania stron internetowych, XML i kolektor HTTP Norconex.

Ten przewodnik zawiera instrukcje wykonywania kluczowych zadań związanych z wdrażaniem wtyczki indeksatora:

  • Pobierz oprogramowanie wtyczki do indeksowania
  • Konfigurowanie Google Cloud Search
  • Konfigurowanie kolektora HTTP Norconex i indeksowania internetu
  • Rozpoczynanie indeksowania internetu i przesyłanie treści

Informacje o zadaniach, które musi wykonać administrator Google Workspace, aby zmapować Google Cloud Search na wtyczkę indeksatora HTTP Collector Norconex, nie są wyświetlane w tym przewodniku. Informacje o tych zadaniach znajdziesz w artykule Zarządzanie zewnętrznymi źródłami danych.

Informacje o wtyczce kolektora HTTP Collector do Cloud Search Norconex

Domyślnie Cloud Search może wykrywać, indeksować i udostępniać treści z usług Google Workspace, takich jak Dokumenty Google i Gmail. Możesz rozszerzyć zasięg Google Cloud Search, aby obejmował udostępnianie treści internetowych użytkownikom, wdrażając wtyczkę do indeksowania dla Norconex HTTP Collector – firmowego robota indeksującego typu open source.

Pliki właściwości konfiguracji

Aby umożliwić wtyczce indeksującego przeszukiwanie sieci i przesyłanie treści do interfejsu API do indeksowania, jako administrator wtyczki indeksującego musisz podać określone informacje podczas czynności konfiguracyjnych opisanych w tym dokumencie w sekcji Etapy wdrażania.

Aby korzystać z wtyczki indeksującego, musisz ustawić właściwości w 2 plikach konfiguracji:

  • {gcs-crawl-config.xml} – zawiera ustawienia kolektora HTTP Norconex.
  • sdk-configuration.properties – zawiera ustawienia Google Cloud Search.

Właściwości każdego pliku umożliwiają wtyczce indeksu Google Cloud Search i kolekcjonerowi HTTP Norconex komunikację ze sobą.

Indeksowanie internetu i przesyłanie treści

Po wypełnieniu plików konfiguracji masz wybrane ustawienia niezbędne do uruchomienia indeksowania internetu. Kolektor HTTP Norconex przeszukuje internet, znajdując treści dokumentów, które są zgodne z jej konfiguracją, i przesyła ich oryginalne wersje binarne (lub tekstowe) do interfejsu API indeksowania Cloud Search, gdzie są indeksowane i udostępniane użytkownikom.

Obsługiwany system operacyjny

W systemie Linux musisz zainstalować wtyczkę Google Cloud Search Norconex do indeksowania kolektorów HTTP Collector Collector.

Obsługiwana wersja kolektora HTTP Norconex

Wtyczka Google Cloud Search Norconex do indeksowania kolektora HTTP obsługuje wersję 2.8.0.

Obsługa list ACL

Wtyczka indeksującego umożliwia kontrolowanie dostępu do dokumentów w domenie Google Workspace za pomocą list kontroli dostępu (ACL).

Jeśli domyślne listy kontroli dostępu są włączone w konfiguracji wtyczki Google Cloud Search (defaultAcl.mode ma wartość inną niż none i skonfigurowano za pomocą defaultAcl.*), wtyczka indeksującego najpierw próbuje utworzyć i zastosować domyślną listę kontroli dostępu.

Jeśli domyślne listy kontroli dostępu nie są włączone, wtyczka przyznaje uprawnienia do odczytu całej domenie Google Workspace.

Szczegółowy opis parametrów konfiguracji listy kontroli dostępu znajdziesz w artykule Parametry oprogramowania sprzęgającego dostarczone przez Google.

Wymagania wstępne

Przed wdrożeniem wtyczki indeksującego sprawdź, czy masz te wymagane komponenty:

  • Oprogramowanie Java JRE 1.8 zainstalowane na komputerze, na którym działa wtyczka do indeksowania
  • Informacje z Google Workspace wymagane do nawiązania relacji między Cloud Search a kolektorem HTTP Norconex:

    Zwykle administrator Google Workspace w domenie może dostarczyć te dane za Ciebie.

Etapy wdrażania

Aby wdrożyć wtyczkę indeksującego, wykonaj te czynności:

  1. Instalowanie oprogramowania Norconex HTTP Collector i wtyczki indeksującego
  2. Konfigurowanie Google Cloud Search
  3. Konfigurowanie kolektora HTTP Norconex
  4. Konfigurowanie indeksowania internetu
  5. Rozpoczynanie indeksowania internetu i przesyłania treści

Krok 1. Zainstaluj kolektor HTTP Norconex i oprogramowanie wtyczki indeksującego

  1. Pobierz oprogramowanie Norconex Commiter z tej strony.
  2. Rozpakuj pobrane oprogramowanie do folderu ~/norconex/
  3. Sklonuj wtyczkę weryfikatora z GitHuba. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git, a potem cd norconex-committer-plugin
  4. Sprawdź odpowiednią wersję wtyczki Commiter i utwórz plik ZIP: git checkout tags/v1-0.0.3 i mvn package (aby pominąć testy podczas tworzenia oprogramowania sprzęgającego, użyj mvn package -DskipTests).
  5. cd target
  6. Skopiuj utworzony plik jar wtyczki do katalogu norconex lib. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Wyodrębnij utworzony przed chwilą plik ZIP, a następnie rozpakuj go: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Uruchom skrypt instalacyjny, aby skopiować plik .jar wtyczki i wszystkie wymagane biblioteki do katalogu kolektora http:
    1. Zmień na rozpakowaną powyżej wtyczkę zatwierdzającego: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. Uruchom $ sh install.sh i gdy pojawi się prośba, podaj pełną ścieżkę do norconex/norconex-collector-http-{version}/lib jako katalogu docelowego.
    3. Jeśli zostaną znalezione zduplikowane pliki jar, wybierz opcję 1 (po zmianie nazwy docelowego pliku Jar skopiuj tylko źródłowy plik Jar).

Krok 2. Skonfiguruj Google Cloud Search

Aby wtyczka indeksatora łączyła się z kolektorem HTTP Norconex i zindeksowała odpowiednie treści, musisz utworzyć plik konfiguracji Cloud Search w katalogu Norconex, w którym jest zainstalowany kolektor HTTP Norconex. Google zaleca nazwę pliku konfiguracji Cloud Search sdk-configuration.properties.

Ten plik konfiguracji musi zawierać pary klucz/wartość definiujące parametr. Plik konfiguracji musi zawierać co najmniej te parametry, które są niezbędne do uzyskania dostępu do źródła danych Cloud Search.

lokalizacji, Parametr
Identyfikator źródła danych api.sourceId = 1234567890abcdef
Wymagane. Identyfikator źródła Cloud Search skonfigurowany przez administratora Google Workspace.
Konto usługi api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Wymagane. Plik klucza konta usługi Cloud Search utworzony przez administratora Google Workspace na potrzeby ułatwień dostępu we wtyczce indeksatora.

Poniższy przykład przedstawia plik sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Plik konfiguracji może też zawierać parametry konfiguracji dostarczone przez Google. Te parametry mogą wpłynąć na sposób, w jaki wtyczka przekazuje dane do interfejsu Google Cloud Search API. Na przykład zbiór parametrów batch.* określa sposób, w jaki oprogramowanie sprzęgające łączy żądania.

Jeśli nie zdefiniujesz parametru w pliku konfiguracji, zostanie użyta wartość domyślna, o ile jest dostępna. Szczegółowy opis poszczególnych parametrów znajdziesz w artykule Parametry oprogramowania sprzęgającego dostarczone przez Google.

Możesz skonfigurować wtyczkę do indeksowania, tak aby wypełniała metadane i uporządkowane dane na potrzeby indeksowania treści. Wartości, które mają być wypełniane polami metadanych i uporządkowanych danych, można wyodrębnić z metatagów w indeksowanej treści HTML. Wartości domyślne można określić w pliku konfiguracji.

Ustawienie Parametr
Tytuł itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Domyślnie wtyczka używa HTML title jako tytułu indeksowanego dokumentu. W przypadku braku tytułu możesz skorzystać z atrybutu metadanych, który zawiera wartość odpowiadającą tytułowi dokumentu, lub ustawić wartość domyślną.
Sygnatura czasowa utworzenia itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Atrybut metadanych, który zawiera wartość sygnatury czasowej utworzenia dokumentu.
Czas ostatniej modyfikacji itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Atrybut metadanych, który zawiera wartość sygnatury czasowej ostatniej modyfikacji dokumentu.
Język dokumentu itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Język treści indeksowanych dokumentów.
Typ obiektu schematu itemMetadata.objectType=movie
Typ obiektu używany przez witrynę, zgodnie z definicjami obiektów schematu źródła danych. Jeśli ta właściwość nie zostanie określona, oprogramowanie sprzęgające nie będzie indeksować żadnych uporządkowanych danych.

Uwaga: ta właściwość konfiguracji wskazuje wartość, a nie atrybut metadanych, a sufiksy .field i .defaultValue nie są obsługiwane.

Formaty daty i godziny

Formaty daty i godziny określają oczekiwane formaty w atrybutach metadanych. Jeśli plik konfiguracji nie zawiera tego parametru, używane są wartości domyślne. Ten parametr jest przedstawiony w tabeli poniżej.

Ustawienie

Parametr

Dodatkowe wzorce daty i godziny

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Rozdzielona średnikami lista dodatkowych wzorców java.time.format.DateTimeFormatter. Wzorce są używane podczas analizowania wartości w postaci ciągów znaków w dowolnych polach daty i godziny w metadanych bądź schemacie. Wartością domyślną jest pusta lista, ale formaty RFC 3339 i RFC 1123 są zawsze obsługiwane.

Krok 3. Skonfiguruj kolektor HTTP Norconex

Archiwum ZIP norconex-committer-google-cloud-search-{version}.zipzawiera przykładowy plik konfiguracji minimum-config.xml.

Google zaleca rozpoczęcie konfiguracji od skopiowania przykładowego pliku:

  1. Przejdź do katalogu kolektora HTTP Norconex:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Skopiuj plik konfiguracji:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Edytuj nowo utworzony plik (w tym przykładzie gcs-crawl-config.xml) i dodaj lub zastąp istniejące węzły <committer> i <tagger> zgodnie z opisem w poniższej tabeli.
lokalizacji, Parametr
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Wymagane. Aby włączyć wtyczkę, musisz dodać węzeł <committer> jako węzeł podrzędny głównego węzła <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
Opcjonalnie. Format, w jakim wtyczka indeksującego przekazuje treść dokumentu do interfejsu API narzędzia Google Cloud Search. Prawidłowe wartości to:
  • raw: wtyczka indeksowania przekazuje oryginalną, nieskonwertowaną treść dokumentu.
  • text: wtyczka indeksowania przekazuje wyodrębnione treści tekstowe.

Wartość domyślna to raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Wymagany, jeśli wartość <UploadFormat> to raw. W takim przypadku wtyczka do indeksowania potrzebuje pola treści binarnej w dokumencie.

Musisz dodać węzeł BinaryContentTagger <tagger> jako element podrzędny węzła <importer> / <preParseHandlers>.

Poniższy przykład pokazuje wymaganą modyfikację gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Krok 4. Skonfiguruj indeksowanie sieci

Przed rozpoczęciem indeksowania internetu musisz skonfigurować indeksowanie tak, aby uwzględniało tylko informacje, które Twoja organizacja chce udostępnić w wynikach wyszukiwania. Najważniejsze ustawienia indeksowania internetu wchodzą w skład węzłów <crawler> i mogą obejmować:

  • Początkowe adresy URL
  • Maksymalna głębokość indeksowania
  • Liczba wątków

Zmień te wartości konfiguracji odpowiednio do swoich potrzeb. Szczegółowe informacje o konfigurowaniu indeksowania sieci oraz pełną listę dostępnych parametrów konfiguracji znajdziesz na stronie konfiguracji kolektora HTTP.

Krok 5. Rozpocznij indeksowanie internetu i prześlij treści

Po zainstalowaniu i skonfigurowaniu wtyczki narzędzia indeksującego możesz uruchomić ją samodzielnie w trybie lokalnym.

W tym przykładzie założono, że wymagane komponenty znajdują się w katalogu lokalnym w systemie Linux. Uruchom to polecenie:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Monitorowanie robota za pomocą narzędzia JEF Monitor

Norconex JEF (Job Execution Framework) Monitor to narzędzie graficzne do monitorowania postępów procesów i zadań robota Norconex Web Crawler (kolektor HTTP). Pełny samouczek konfigurowania tego narzędzia znajdziesz w artykule Monitorowanie postępów robota przy użyciu JEF Monitor.