Dieser Leitfaden richtet sich an Administratoren, die für das Herunterladen, Bereitstellen und Verwalten des Indexierungs-Plug-ins für den Google Cloud Search Norconex HTTP Collector verantwortlich sind. Sie sollten mit Linux, den Grundlagen des Web-Crawlings, XML und dem Norconex HTTP Collector vertraut sein.
Dieser Leitfaden enthält Anleitungen zu folgenden Themen:
- Software für das Indexierungs-Plug-in herunterladen
- Cloud Search konfigurieren
- Den Norconex HTTP Collector und das Web-Crawling konfigurieren
- Web-Crawling und den Upload von Inhalten starten
Informationen zu den Aufgaben, die der Google Workspace-Administrator ausführen muss, sind in diesem Leitfaden nicht enthalten. Weitere Informationen dazu finden Sie unter Integration von Drittanbietern.
Übersicht über das Indexierungs-Plug-in für den Norconex HTTP Collector
Mit Cloud Search können Sie in Google Workspace-Diensten wie Google Docs und Gmail nach Inhalten suchen und diese indexieren sowie bereitstellen. Wenn Sie das Indexierungs-Plug-in für den Norconex HTTP Collectorbereitstellen, können Sie die Reichweite von Cloud Search auf Webinhalte ausweiten. Das Plug-in ist ein Open-Source-Web-Crawler für Unternehmen.
Konfigurationsattributdateien
Damit das Plug-in Inhalte crawlen und hochladen kann, müssen Sie in zwei Konfigurationsdateien bestimmte Informationen angeben:
{gcs-crawl-config.xml}: Einstellungen für den Norconex HTTP Collectorsdk-configuration.properties: Einstellungen für Cloud Search
Web-Crawling und Upload von Inhalten
Nachdem Sie die Konfigurationsdateien vorbereitet haben, können Sie das Web-Crawling starten. Der Norconex HTTP Collector crawlt das Web und lädt die ursprünglichen Binär- oder Textdokumentinhalte in die Indexierungs-API von Cloud Search hoch.
Systemanforderungen
- Betriebssystem: nur Linux
- Norconex-Version: Version 2.8.0
- Software: Java JRE 1.8
ACL-Unterstützung
Das Indexierungs-Plug-in unterstützt Zugriffssteuerungslisten (Access Control Lists, ACLs), um den Zugriff auf Dokumente in der Google Workspace-Domain zu steuern.
Wenn Sie in der Plug-in-Konfiguration Standard-ACLs aktivieren (defaultAcl.mode ist nicht auf none festgelegt), werden diese Standardeinstellungen vom Plug-in angewendet. Andernfalls gewährt das Plug-in der gesamten Domain die Leseberechtigung. Weitere Informationen zu den von Google erstellten Connectorparametern
Vorbereitung
Für das Deployment des Indexierungs-Plug-in benötigen Sie die folgenden Komponenten:
- Privater Google Workspace-Schlüssel, der die Dienstkonto-ID enthält. Weitere Informationen finden Sie unter Zugriff auf die Cloud Search API konfigurieren.
- ID der Google Workspace-Datenquelle. Weitere Informationen finden Sie unter Integration von Drittanbietern.
Deployment
- Den Norconex HTTP Collector und das Plug-in installieren
- Cloud Search konfigurieren
- Den Norconex HTTP Collector konfigurieren
- Web-Crawling konfigurieren
- Web-Crawling und Inhaltsupload starten
Schritt 1: Den Norconex HTTP Collector und das Plug-in installieren
- Laden Sie die Norconex Committer-Software von der Norconex Download seite herunter.
- Extrahieren Sie die Software nach
~/norconex/. Klonen Sie das Committer-Plug-in:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginChecken Sie die ausgewählte Version aus und erstellen Sie das Plug-in:
git checkout tags/v1-0.0.3 mvn packageVerwenden Sie
mvn package -DskipTests, um Tests zu überspringen.Kopieren Sie die JAR-Datei in das
lib-Verzeichnis von Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libExtrahieren Sie die erstellte ZIP-Datei:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Führen Sie das Installationsskript aus und geben Sie den vollständigen Pfad zum
lib-Verzeichnis von Norconex an:sh install.shWenn Sie nach doppelten Dateien gefragt werden, wählen Sie Option
1aus.
Schritt 2: Cloud Search konfigurieren
Erstellen Sie sdk-configuration.properties im Norconex-Verzeichnis. In der Datei müssen die folgenden Parameter angegeben werden:
| Einstellung | Parameter |
| ID der Datenquelle | api.sourceId = 1234567890abcdef
Pflichteingabe. Die Quell-ID von Ihrem Google Workspace-Administrator. |
| Dienstkonto | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Pflichteingabe. Die Dienstkonto-Schlüsseldatei. |
Beispiel für sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Sie können auch Parameter wie batch.* angeben, um zu steuern, wie das Plug-in Daten überträgt. Weitere Informationen zu den von Google erstellten Connectorparametern
Konfigurieren Sie die folgenden optionalen Parameter, um Metadaten zu verwenden:
| Einstellung | Parameter |
| Titel | itemMetadata.title.field=movieTitle |
| Schema-Objekttyp | itemMetadata.objectType=movie |
Schritt 3: Den Norconex HTTP Collector konfigurieren
Das Plug-in enthält eine Beispieldatei: minimum-config.xml.
Wechseln Sie in das Norconex-Verzeichnis und kopieren Sie das Beispiel:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlBearbeiten Sie
gcs-crawl-config.xml, um<committer>und<tagger>-Knoten hinzuzufügen oder zu ersetzen:
| Einstellung | Parameter |
<committer>-Knoten |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Pflichteingabe. Fügen Sie dies unter dem <httpcollector> Knoten hinzu. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Optional. raw oder text. Standard ist
raw. |
Beispiel für gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Schritt 4: Web-Crawling konfigurieren
Konfigurieren Sie die <crawler>-Knoten nach Bedarf, einschließlich:
- Start-URLs
- Maximale Crawling-Tiefe
- Anzahl der Threads
Weitere Informationen finden Sie auf der Norconex-Konfigurations seite.
Schritt 5: Web-Crawling und Inhaltsupload starten
Führen Sie den Collector im lokalen Modus aus:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Crawler mit JEF Monitor überwachen
Der Norconex JEF Monitor (Job Execution Framework) bietet eine grafische Ansicht des Fortschritts. Weitere Informationen finden Sie unter Crawler mit JEF Monitor überwachen.