Questa guida è destinata agli amministratori del plug-in indicizzatore di Google Cloud Search Norconex HTTP Collector, ovvero a chiunque sia responsabile del download, del deployment, della configurazione e della manutenzione del plug-in indicizzatore. La guida presuppone che tu abbia familiarità con i sistemi operativi Linux, i fondamenti del web crawling, XML e Norconex HTTP Collector.
Questa guida include istruzioni per eseguire le attività chiave relative all'implementazione del plug-in dell'indicizzatore:
- Scaricare il software del plug-in di indicizzazione
- Configurare Google Cloud Search
- Configurare Norconex HTTP Collector e la scansione del web
- Avvia la scansione del web e carica i contenuti
Le informazioni sulle attività che l'amministratore di Google Workspace deve eseguire per mappare Google Cloud Search al plug-in di indicizzazione Norconex HTTP Collector non sono riportate in questa guida. Per informazioni su queste attività, vedi Gestire le origini dati di terze parti.
Panoramica del plug-in di indicizzazione Norconex HTTP Collector di Cloud Search
Per impostazione predefinita, Cloud Search può rilevare, indicizzare e pubblicare contenuti da prodotti Google Workspace, come Google Docs e Gmail. Puoi estendere la copertura di Google Cloud Search per includere la pubblicazione di contenuti web per i tuoi utenti implementando il plug-in di indicizzazione per Norconex HTTP Collector, un web crawler aziendale open source.
File delle proprietà di configurazione
Per consentire al plug-in di indicizzazione di eseguire scansioni del web e caricare contenuti nell'API Indexing, tu, in qualità di amministratore del plug-in di indicizzazione, fornisci informazioni specifiche durante i passaggi di configurazione descritti in questo documento nella sezione Passaggi di deployment.
Per utilizzare il plug-in di indicizzazione, devi impostare le proprietà in due file di configurazione:
{gcs-crawl-config.xml}
-- contiene le impostazioni per Norconex HTTP Collector.sdk-configuration.properties
: contiene le impostazioni di Google Cloud Search.
Le proprietà di ogni file consentono al plug-in indicizzatore Google Cloud Search e a Norconex HTTP Collector di comunicare tra loro.
Scansione del web e caricamento dei contenuti
Dopo aver compilato i file di configurazione, hai le impostazioni necessarie per avviare la scansione del web. Norconex HTTP Collector esegue la scansione del web, scoprendo i contenuti dei documenti pertinenti alla sua configurazione e carica le versioni binarie (o di testo) originali dei contenuti dei documenti nell'API Cloud Search Indexing, dove vengono indicizzati e infine pubblicati per gli utenti.
Sistema operativo supportato
Il plug-in di indicizzazione del raccoglitore HTTP Norconex di Google Cloud Search deve essere installato su Linux.
Versione supportata di Norconex HTTP Collector
Il plug-in di indicizzazione Norconex HTTP Collector di Google Cloud Search supporta la versione 2.8.0.
Supporto ACL
Il plug-in indicizzatore supporta il controllo dell'accesso ai documenti nel dominio Google Workspace utilizzando gli elenchi di controllo dell'accesso (ACL).
Se gli ACL predefiniti sono abilitati nella configurazione del plug-in Google Cloud Search
(defaultAcl.mode
impostato su un valore diverso da none
e configurato con defaultAcl.*
),
il plug-in indicizzatore tenta prima di creare e applicare un ACL predefinito.
Se gli ACL predefiniti non sono attivati, il plug-in torna a concedere l'autorizzazione di lettura all'intero dominio Google Workspace.
Per descrizioni dettagliate dei parametri di configurazione ACL, vedi Parametri del connettore forniti da Google.
Prerequisiti
Prima di eseguire il deployment del plug-in di indicizzazione, assicurati di disporre dei seguenti componenti richiesti:
- Java JRE 1.8 installato su un computer che esegue il plug-in di indicizzazione
Informazioni di Google Workspace necessarie per stabilire relazioni tra Cloud Search e Norconex HTTP Collector:
- Chiave privata di Google Workspace (che contiene l'ID account di servizio)
- ID origine dati di Google Workspace
In genere, l'amministratore di Google Workspace per il dominio può fornirti queste credenziali.
Passi per il deployment
Per eseguire il deployment del plug-in di indicizzazione:
- Installa Norconex HTTP Collector e il software del plug-in di indicizzazione
- Configurare Google Cloud Search
- Configura Norconex HTTP Collector
- Configurare la scansione web
- Avviare una scansione del web e il caricamento dei contenuti
Passaggio 1: installa Norconex HTTP Collector e il software del plug-in di indicizzazione
- Scarica il software di commit Norconex da questa pagina.
- Decomprimi il software scaricato nella cartella
~/norconex/
- Clona il plug-in commiter da GitHub.
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
e poicd norconex-committer-plugin
- Estrai la versione desiderata del plug-in committer e crea il file ZIP:
git checkout tags/v1-0.0.3
emvn package
(per ignorare i test durante la creazione del connettore, utilizzamvn package -DskipTests
). cd target
- Copia il file JAR del plug-in creato nella directory lib di Norconex.
cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
- Estrai il file ZIP che hai appena creato, quindi decomprimilo:
unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
- Esegui lo script di installazione per copiare il file .jar del plug-in e tutte le librerie richieste nella directory del raccoglitore HTTP:
- Passa al plug-in committer estratto decompressato sopra:
cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
- Esegui
$ sh install.sh
e fornisci il percorso completo anorconex/norconex-collector-http-{version}/lib
come directory di destinazione quando richiesto. - Se vengono trovati file JAR duplicati, seleziona l'opzione
1
(Copia solo il file JAR di origine se la versione è uguale o superiore a quella del file JAR di destinazione dopo la ridenominazione).
- Passa al plug-in committer estratto decompressato sopra:
Passaggio 2: configura Google Cloud Search
Affinché il plug-in indicizzatore si connetta a Norconex HTTP Collector e indicizzi i contenuti pertinenti, devi creare il file di configurazione di Cloud Search nella directory Norconex in cui è installato Norconex HTTP Collector. Google consiglia
di denominare il file di configurazione di Cloud Search
sdk-configuration.properties
.
Questo file di configurazione deve contenere coppie chiave/valore che definiscono un parametro. Il file di configurazione deve specificare almeno i seguenti parametri, necessari per accedere all'origine dati Cloud Search.
Impostazione | Parametro |
ID origine dati | api.sourceId = 1234567890abcdef
Obbligatorio. L'ID origine Cloud Search configurato dall'amministratore di Google Workspace. |
Service account | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Obbligatorio. Il file della chiave del service account Cloud Search creato dall'amministratore di Google Workspace per l'accessibilità del plug-in di indicizzazione. |
L'esempio seguente mostra un file sdk-configuration.properties
.
#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#
Il file di configurazione può contenere anche parametri di configurazione forniti da Google.
Questi parametri possono influire sul modo in cui questo plug-in inserisce i dati nell'API Google Cloud Search. Ad esempio, il set di parametri batch.*
identifica il modo in cui il connettore combina le richieste.
Se non definisci un parametro nel file di configurazione, viene utilizzato il valore predefinito, se disponibile. Per descrizioni dettagliate di ciascun parametro, vedi Parametri del connettore forniti da Google.
Puoi configurare il plug-in di indicizzazione per compilare i metadati e i dati strutturati per i contenuti indicizzati. I valori da inserire per i campi dei metadati e dei dati strutturati possono essere estratti dai metatag nei contenuti HTML in fase di indicizzazione oppure possono essere specificati valori predefiniti nel file di configurazione.
Impostazione | Parametro |
Titolo | itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Per impostazione predefinita, il plug-in utilizza HTML title come titolo del documento da indicizzare. In caso di titolo mancante, puoi fare riferimento
all'attributo dei metadati che contiene il valore corrispondente al titolo del documento o impostare un valore predefinito.
|
Timestamp creazione | itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp di creazione del documento. |
Ora dell'ultima modifica | itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
L'attributo dei metadati che contiene il valore del timestamp dell'ultima modifica del documento. |
Lingua del documento | itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
La lingua dei contenuti per i documenti indicizzati. |
Tipo di oggetto di schema | itemMetadata.objectType=movie
Il tipo di oggetto utilizzato dal sito, come definito nelle definizioni degli oggetti dello schema dell'origine dati. Il connettore non indicizzerà i dati strutturati se questa proprietà non è specificata.
Nota: questa proprietà di configurazione punta a un valore anziché a un attributo dei metadati e i suffissi |
Formati data/ora
I formati di data e ora specificano i formati previsti negli attributi dei metadati. Se il file di configurazione non contiene questo parametro, vengono utilizzati i valori predefiniti. La seguente tabella mostra questo parametro.
Impostazione
Parametro
Pattern di data e ora aggiuntivi
structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Un elenco separato da punto e virgola di pattern java.time.format.DateTimeFormatter aggiuntivi. I pattern vengono utilizzati durante l'analisi dei valori stringa per qualsiasi campo di data o data e ora nei metadati o nello schema. Il valore predefinito è un elenco vuoto, ma i formati RFC 3339 e RFC 1123 sono sempre supportati.
Passaggio 3: configura Norconex HTTP Collector
L'archivio zip norconex-committer-google-cloud-search-{version}.zip
include un
file di configurazione di esempio, minimum-config.xml
.
Google consiglia di iniziare la configurazione copiando il file di esempio:
- Passa alla directory di Norconex HTTP Collector:
$ cd ~/norconex/norconex-collector-http-{version}/
- Copia il file di configurazione:
$ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
- Modifica il file appena creato (in questo esempio,
gcs-crawl-config.xml
) e aggiungi o sostituisci i nodi<committer>
e<tagger>
esistenti come descritto nella tabella seguente.
Impostazione | Parametro |
<committer> node
|
<committer class="com.norconex.committer.googlecloudsearch.
GoogleCloudSearchCommitter">
Obbligatorio. Per attivare il plug-in, devi aggiungere un nodo <committer> come nodo secondario del nodo <httpcollector> radice.
|
<UploadFormat>
|
<uploadFormat>raw</uploadFormat>
Facoltativo. Il formato in cui il plug-in indicizzatore invia i contenuti del documento all'API indicizzatore di Google Cloud Search. I valori validi sono:
Il valore predefinito è raw .
|
BinaryContent Tagger <tagger> node
|
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
Obbligatorio se il valore di <UploadFormat> è raw . In questo caso, il plug-in di indicizzazione richiede che il campo dei contenuti binari del documento sia disponibile.
Devi aggiungere il nodo BinaryContentTagger <tagger> come elemento secondario del nodo <importer> / <preParseHandlers> .
|
L'esempio seguente mostra la modifica richiesta a
gcs-crawl-config.xml
.
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Passaggio 4: configura la scansione del web
Prima di avviare una scansione web, devi configurarla in modo che includa solo
le informazioni che la tua organizzazione vuole rendere disponibili nei risultati di ricerca. Le impostazioni più importanti per la scansione del web fanno parte dei nodi <crawler>
e possono includere:
- URL di avvio
- Profondità massima della scansione
- Numero di thread
Modifica questi valori di configurazione in base alle tue esigenze. Per informazioni più dettagliate sulla configurazione di una scansione del web, nonché un elenco completo dei parametri di configurazione disponibili, consulta la pagina Configurazione del raccoglitore HTTP.
Passaggio 5: avvia una scansione del web e il caricamento dei contenuti
Dopo aver installato e configurato il plug-in di indicizzazione, puoi eseguirlo in modalità locale.
L'esempio seguente presuppone che i componenti richiesti si trovino nella directory locale di un sistema Linux. Esegui questo comando:
$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Monitorare il crawler con JEF Monitor
Norconex JEF (Job Execution Framework) Monitor è uno strumento grafico per monitorare l'avanzamento dei processi e dei job di Norconex Web Crawler (HTTP Collector). Per un tutorial completo su come configurare questa utilità, visita la pagina Monitorare l'avanzamento del crawler con JEF Monitor.