Questa pagina è stata tradotta dall'API Cloud Translation.

Deployment di un plug-in Apache Nutch Indexer

Puoi configurare Google Cloud Search per pubblicare contenuti web per i tuoi utenti eseguendo il deployment del plug-in di indicizzazione di Google Cloud Search per Apache Nutch, un web crawler open source.

Quando avvii la scansione del web, Apache Nutch esegue la scansione del web e utilizza il plug-in di indicizzazione per caricare le versioni binarie (o di testo) originali dei contenuti dei documenti nell'API Google Cloud Search Indexing. L'API Indexing indicizza i contenuti e mostra i risultati agli utenti.

Considerazioni importanti

Requisiti di sistema

Requisiti di sistema
Sistema operativo	Solo per Linux: Ubuntu Red Hat Enterprise Linux 5.0 SUSE Enterprise Linux 10 (64 bit)
Software	Apache Nutch versione 1.15. Il software del plug-in di indicizzazione include questa versione di Nutch. Java JRE 1.8 installato sul computer che eseguirà il plug-in di indicizzazione
Tipi di documenti Apache Tika	Formati di documenti supportati da Apache Tika 1.18

Esegui il deployment del plug-in di indicizzazione

I passaggi riportati di seguito descrivono come installare il plug-in dell'indicizzatore e configurare i relativi componenti per eseguire la scansione degli URL specificati e restituire i risultati a Cloud Search.

Prerequisiti

Prima di eseguire il deployment del plug-in di indicizzazione Apache Nutch di Cloud Search, raccogli le informazioni necessarie per connettere Google Cloud Search e l'origine dati:

Chiave privata di Google Workspace (che contiene l'ID account di servizio). Per informazioni su come ottenere una chiave privata, vai a Configurare l'accesso all'API Google Cloud Search.
ID origine dati di Google Workspace. Per informazioni su come ottenere un ID origine dati, vai a Aggiungere un'origine dati per la ricerca.

Passaggio 1: crea e installa il software del plug-in e Apache Nutch

Clona il repository del plug-in di indicizzazione da GitHub.

$ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git
$ cd apache-nutch-indexer-plugin

Controlla la versione desiderata del plug-in di indicizzazione:

$ git checkout tags/v1-0.0.5

Crea il plug-in dell'indicizzatore.

$ mvn package

Per ignorare i test durante la creazione del plug-in dell'indicizzatore, utilizza mvn package -DskipTests.

Scarica Apache Nutch 1.15 e segui le istruzioni di installazione di Apache Nutch.
Estrai target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip (creato nel passaggio 2) in una cartella. Copia la cartella plugins/indexer-google-cloudsearch nella cartella dei plug-in di installazione di Apache Nutch (apache-nutch-1.15/plugins).

Passaggio 2: configura il plug-in di indicizzazione

Per configurare il plug-in Apache Nutch Indexer, crea un file denominato plugin-configuration.properties.

Il file di configurazione deve specificare i seguenti parametri, necessari per accedere all'origine dati di Google Cloud Search.

Impostazione	Parametro
ID origine dati	`api.sourceId = 1234567890abcdef` Obbligatorio. L'ID origine di Google Cloud Search che l'amministratore di Google Workspace ha configurato per il plug-in di indicizzazione.
Service account	`api.serviceAccountPrivateKeyFile = ./PrivateKey.json` Obbligatorio. Il file della chiave del service account Google Cloud Search creato dall'amministratore Google Workspace per l'accessibilità del plug-in di indicizzazione.

L'esempio seguente mostra un file di configurazione di esempio con i parametri richiesti.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Il file di configurazione può contenere anche altri parametri che controllano il comportamento del plug-in dell'indicizzatore. Puoi configurare il modo in cui il plug-in inserisce i dati nell'API Cloud Search, defaultAcl.* e batch.*. Puoi anche configurare la modalità di compilazione dei metadati e dei dati strutturati da parte del plug-in di indicizzazione.

Per le descrizioni di questi parametri, vai a Parametri del connettore forniti da Google.

Passaggio 3: configura Apache Nutch

Apri conf/nutch-site.xml e aggiungi i seguenti parametri:

Impostazione Parametro

Il plug-in include

plugin.includes = text

Obbligatorio. Elenco dei plug-in da utilizzare. Deve includere almeno:

index-basic
index-more
indexer-google-cloudsearch

conf/nutch-default.xml fornisce un valore predefinito per questa proprietà, ma devi anche aggiungere manualmente indexer-google-cloudsearch.

Nomi dei metatag

metatags.names = text

Facoltativo. Elenco separato da virgole di tag che vengono mappati alle proprietà nello schema dell'origine dati corrispondente. Per scoprire di più su come configurare Apache Nutch per i metatag, visita la pagina Nutch-parse metatags.

L'esempio seguente mostra la modifica richiesta a nutch-site.xml:

<property>
  <name>plugin.includes</name>
  <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
</property>

Apri conf/index-writers.xml e aggiungi la seguente sezione:

<writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter">
  <parameters>
    <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/>
  </parameters>
  <mapping>
    <copy />
    <rename />
    <remove />
  </mapping>
</writer>

La sezione <writer> contiene i seguenti parametri:

Impostazione Parametro

Percorso del file di configurazione di Google Cloud Search

gcs.config.file = path

Obbligatorio. Il percorso completo (assoluto) al file di configurazione di Google Cloud Search.

Formato di caricamento

gcs.uploadFormat = text

Facoltativo. Il formato in cui il plug-in indicizzatore invia i contenuti del documento all'API indicizzatore di Google Cloud Search. I valori validi sono:

raw: il plug-in dell'indicizzatore esegue il push dei contenuti originali e non convertiti del documento.
text: il plug-in di indicizzazione esegue il push dei contenuti di testo estratti. Il valore predefinito è raw.

Passaggio 4: configura la scansione del web

Prima di avviare una scansione web, configura la scansione in modo che includa solo le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Questa sezione fornisce una panoramica. Per ulteriori informazioni su come configurare una scansione web, consulta il tutorial su Nutch.

Configura gli URL di avvio.

Gli URL iniziali controllano dove il web crawler Apache Nutch inizia a eseguire la scansione dei tuoi contenuti. Gli URL di avvio devono consentire al web crawler di raggiungere tutti i contenuti che vuoi includere in una determinata scansione seguendo i link. Gli URL iniziali sono obbligatori.

Per configurare gli URL di avvio:
1. Cambia la directory di lavoro impostandola su quella di installazione di Nutch:
```
$ cd ~/nutch/apache-nutch-X.Y/
```
2. Crea una directory per gli URL:
```
$ mkdir urls
```
3. Crea un file denominato seed.txt ed elenca gli URL al suo interno, con un URL per riga.
Configura le regole di follow e nofollow.

Le regole URL controllano quali URL vengono sottoposti a scansione e inclusi nell'indice di Google Cloud Search. Il web crawler controlla gli URL in base alle regole di follow degli URL. Vengono sottoposti a scansione e indicizzazione solo gli URL che corrispondono a queste regole.

Le regole Do-not-follow escludono gli URL dalla scansione e dall'inclusione nell'indice di Google Cloud Search. Se un URL contiene un pattern di non scansione, il web crawler non lo esegue.

Per configurare le regole per gli URL follow e nofollow:
1. Cambia la directory di lavoro impostandola su quella di installazione di Nutch:
```
$ cd ~/nutch/apache-nutch-X.Y/
```
2. Modifica conf/regex-urlfilter.txt per cambiare le regole di follow/non follow: \
```
$ nano conf/regex-urlfilter.txt
```
3. Inserisci espressioni regolari con un prefisso "+" o "-" per seguire / non seguire i pattern e le estensioni degli URL, come mostrato negli esempi seguenti. Sono consentite espressioni aperte.
```
# skip file extensions
-\.(gif|GIF|jpg|JPG|png|PNG|ico)

# skip protocols (file: ftp: and mailto:)
    -^(file|ftp|mailto):

# allow urls starting with https://support.google.com/gsa/
+^https://support.google.com/gsa/

# accept anything else
# (commented out due to the single url-prefix allowed above)
#+.
```
Modifica lo script di scansione.

Se il parametro gcs.uploadFormat è mancante o impostato su "raw", devi aggiungere gli argomenti "-addBinaryContent -base64" da passare al comando nutch index. Questi argomenti indicano al modulo Nutch Indexer di includere contenuti binari in Base64 quando richiama il plug-in di indicizzazione. Lo script ./bin/crawl non ha questi argomenti per impostazione predefinita.
1. Apri lo script crawl in apache-nutch-1.15/bin.
2. Aggiungi le opzioni -addBinaryContent -base64 allo script, come nel seguente esempio:
```
      if $INDEXFLAG; then
          echo "Indexing $SEGMENT to index"
          __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT

          echo "Cleaning up index if possible"
          __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb
      else
          echo "Skipping indexing ..."
```

Passaggio 5: avvia una scansione del web e il caricamento dei contenuti

Dopo aver installato e configurato il plug-in di indicizzazione, puoi eseguirlo in modalità locale. Utilizza gli script di ./bin per eseguire un job di scansione o singoli comandi Nutch.

L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale. Esegui Nutch con il comando seguente dalla directory apache-nutch-1.15:

$ bin/crawl -i -s urls/ crawl-test/ 5

I log di scansione sono disponibili nell'output standard (terminale) o nella directory logs/. Per indirizzare l'output di logging o per un logging più dettagliato, modifica conf/log4j.properties.