פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים שאחראים על הורדה, פריסה ותחזוקה של תוסף האינדקס של Google Cloud Search Norconex HTTP Collector. חשוב שתכירו את Linux, את העקרונות הבסיסיים של סריקת אתרים, XML ו-Norconex HTTP Collector.

המדריך הזה כולל הוראות לביצוע הפעולות הבאות:

  • מורידים את תוכנת הפלאגין של יצירת האינדקס.
  • מגדירים את Cloud Search.
  • הגדרת Norconex HTTP Collector וסריקת אתרים.
  • מתחילים בסריקת האינטרנט ומעלים את התוכן.

במדריך הזה לא מופיע מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע. מידע על המשימות האלה מופיע במאמר בנושא ניהול מקורות נתונים של צד שלישי.

סקירה כללית של התוסף Norconex HTTP Collector indexer

כברירת מחדל, Cloud Search יכול לגלות תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail, להוסיף אותו לאינדקס ולהציג אותו. כדי לכלול תוכן מהאינטרנט, אפשר להשתמש בפלאגין של כלי ליצירת אינדקסים ל-Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.

קבצים של מאפייני הגדרה

כדי לאפשר לתוסף לסרוק ולהעלות תוכן, צריך לספק מידע ספציפי בשני קובצי תצורה:

  • {gcs-crawl-config.xml}: הגדרות של Norconex HTTP Collector.
  • sdk-configuration.properties: הגדרות ל-Cloud Search.

סריקת אינטרנט והעלאת תוכן

אחרי שממלאים את קובצי ההגדרות, אפשר להתחיל בסריקת האינטרנט. הכלי Norconex HTTP Collector סורק את האינטרנט ומעלה תוכן מקורי של מסמכים בינאריים או מסמכי טקסט אל Cloud Search Indexing API.

דרישות מערכת

  • מערכת הפעלה: Linux בלבד.
  • גרסת Norconex: גרסה 2.8.0.
  • תוכנה: Java JRE 1.8.

תמיכה ב-ACL

תוסף יצירת האינדקס תומך ברשימות של בקרת גישה (ACL) כדי לשלוט בגישה למסמכים בדומיין Google Workspace.

אם מפעילים רשימות ACL כברירת מחדל בהגדרת הפלאגין (defaultAcl.mode מוגדר לערך שונה מ-none), הפלאגין מחיל את ברירות המחדל האלה. אחרת, התוסף מעניק הרשאת קריאה לכל הדומיין. פרמטרים של מחברים שסופקו על ידי Google

דרישות מוקדמות

לפני שמפעילים את תוסף יצירת האינדקס, צריך לאסוף את הרכיבים הבאים:

שלבי הפריסה

  1. התקנה של Norconex HTTP Collector ותוכנת הפלאגין
  2. הגדרת Cloud Search
  3. הגדרת Norconex HTTP Collector
  4. הגדרת סריקת אתרים
  5. התחלת סריקת אינטרנט והעלאת תוכן

שלב 1: התקנה של Norconex HTTP Collector ותוכנת הפלאגין

  1. מורידים את תוכנת ה-committer של Norconex מדף ההורדה של Norconex.
  2. מחפשים את התוכנה ומחלצים אותה לתיקייה ~/norconex/.
  3. משכפלים את הפלאגין של השולח:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. בודקים את הגרסה שנבחרה ויוצרים את הפלאגין:

    git checkout tags/v1-0.0.3
    mvn package
    

    כדי לדלג על בדיקות, משתמשים ב-mvn package -DskipTests.

  5. מעתיקים את קובץ ה-JAR לספרייה lib של Norconex:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. מחלצים את קובץ ה-ZIP שנוצר:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. מריצים את סקריפט ההתקנה ומזינים את הנתיב המלא לספריית Norconex lib:

    sh install.sh
    

    אם מוצגת בקשה למחיקת קבצים כפולים, בוחרים באפשרות 1.

שלב 2: הגדרת Cloud Search

יוצרים את הספרייה sdk-configuration.properties בספרייה Norconex. בקובץ צריך לציין את הפרמטרים הבאים:

הגדרה פרמטר
מזהה מקור הנתונים api.sourceId = 1234567890abcdef
שדה חובה. מזהה המקור מהאדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
שדה חובה. קובץ המפתח של חשבון השירות.

דוגמה sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

אפשר גם לכלול פרמטרים כמו batch.* כדי לשלוט באופן שבו התוסף דוחף נתונים. פרמטרים של מחברים שסופקו על ידי Google

כדי לאכלס את המטא-נתונים, מגדירים את הפרמטרים האופציונליים האלה:

הגדרה פרמטר
כותרת itemMetadata.title.field=movieTitle
סוג אובייקט הסכימה itemMetadata.objectType=movie

שלב 3: הגדרה של Norconex HTTP Collector

התוסף כולל קובץ לדוגמה, minimum-config.xml.

  1. עוברים לספרייה Norconex ומעתיקים את הדוגמה:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. עריכה gcs-crawl-config.xml כדי להוסיף או להחליף צמתי <committer> ו-<tagger>:

הגדרה פרמטר
צומת <committer> <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
חובה. מוסיפים את השורה הזו לצומת <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. ‫raw או text. ברירת המחדל היא raw.

דוגמה gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרת סריקת אתרים

מגדירים את הצמתים <crawler> בהתאם לצרכים, כולל:

  • כתובות URL להתחלה
  • עומק הסריקה המקסימלי
  • מספר השרשורים

אפשר לעיין בדף ההגדרה של Norconex.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

מריצים את הכלי לאיסוף נתונים במצב מקומי:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

הכלי Norconex JEF (Job Execution Framework) Monitor מספק תצוגה גרפית של ההתקדמות. אפשר לעיין במאמר מעקב אחר הסורק באמצעות JEF Monitor.