פריסת פלאגין של Norconex HTTP Collector Indexer

המדריך הזה מיועד לאדמינים של תוסף האינדקס של Norconex HTTP Collector ל-Google Cloud Search, כלומר לכל מי שאחראי על הורדה, פריסה, הגדרה ותחזוקה של תוסף האינדקס. המדריך מתבסס על ההנחה שאתם מכירים את מערכות ההפעלה של Linux, את היסודות של סריקת אתרים, XML ו-Norconex HTTP Collector.

המדריך הזה כולל הוראות לביצוע משימות מרכזיות שקשורות לפריסת תוסף של כלי ליצירת אינדקסים:

  • הורדת תוכנת הפלאגין של יצירת האינדקס
  • הגדרת Google Cloud Search
  • הגדרת Norconex HTTP Collector וסריקת אתרים
  • התחלת הסריקה של האינטרנט והעלאת התוכן

המדריך הזה לא כולל מידע על המשימות שמנהל Google Workspace צריך לבצע כדי למפות את Google Cloud Search לתוסף Norconex HTTP Collector indexer. מידע על המשימות האלה זמין במאמר בנושא ניהול מקורות נתונים של צד שלישי.

סקירה כללית על הפלאגין של Cloud Search Norconex HTTP Collector indexer

כברירת מחדל, Cloud Search יכול לגלות, ליצור אינדקס ולהציג תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail. כדי להרחיב את טווח ההגעה של Google Cloud Search כך שיכלול הצגת תוכן אינטרנט למשתמשים, אפשר לפרוס את תוסף יצירת האינדקס עבור Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.

קבצים של מאפייני הגדרה

כדי להפעיל את הפלאגין של הכלי ליצירת אינדקסים כדי לבצע סריקות באינטרנט ולהעלות תוכן ל-Indexing API, אתם, כאדמינים של הפלאגין, צריכים לספק מידע ספציפי במהלך שלבי ההגדרה שמתוארים במסמך הזה בקטע שלבי הפריסה.

כדי להשתמש בתוסף ליצירת אינדקס, צריך להגדיר מאפיינים בשני קובצי תצורה:

  • {gcs-crawl-config.xml}-- מכיל הגדרות של Norconex HTTP Collector.
  • sdk-configuration.properties-- מכיל הגדרות ל-Google Cloud Search.

המאפיינים בכל קובץ מאפשרים לתוסף של כלי יצירת האינדקס של Google Cloud Search ול-Norconex HTTP Collector לתקשר ביניהם.

סריקת אינטרנט והעלאת תוכן

אחרי שממלאים את קובצי ההגדרות, יש את ההגדרות הדרושות כדי להתחיל בסריקת האינטרנט. הכלי Norconex HTTP Collector סורק את האינטרנט, מאתר תוכן מסמכים שקשור להגדרה שלו ומעלה גרסאות בינאריות (או טקסטואליות) מקוריות של תוכן המסמכים אל Cloud Search Indexing API, שם הוא עובר אינדוקס ובסופו של דבר מוצג למשתמשים.

מערכת הפעלה נתמכת

צריך להתקין את הפלאגין של Google Cloud Search Norconex HTTP Collector indexer ב-Linux.

גרסה נתמכת של Norconex HTTP Collector

תוסף האינדקס של Google Cloud Search Norconex HTTP Collector תומך בגרסה 2.8.0.

תמיכה ב-ACL

תוסף יצירת האינדקס תומך בשליטה בגישה למסמכים בדומיין Google Workspace באמצעות רשימות של בקרת גישה (ACL).

אם רשימות ACL שמשמשות כברירת מחדל מופעלות בהגדרת הפלאגין Google Cloud Search (defaultAcl.mode מוגדר לערך שונה מ-none ומוגדר עם defaultAcl.*), הפלאגין ליצירת אינדקסים מנסה קודם ליצור ולהחיל רשימת ACL שמשמשת כברירת מחדל.

אם רשימות ה-ACL שמשמשות כברירת המחדל לא מופעלות, התוסף יחזור להענקת הרשאת קריאה לכל דומיין Google Workspace.

תיאורים מפורטים של פרמטרים להגדרת ACL זמינים במאמר בנושא פרמטרים של מחברים שסופקו על ידי Google.

דרישות מוקדמות

לפני שמפעילים את הפלאגין של הכלי ליצירת אינדקסים, צריך לוודא שיש לכם את הרכיבים הנדרשים הבאים:

  • ‫Java JRE 1.8 מותקן במחשב שבו פועל פלאגין יצירת האינדקס
  • מידע מ-Google Workspace שנדרש כדי ליצור קשרים בין Cloud Search לבין Norconex HTTP Collector:

    בדרך כלל, האדמין ב-Google Workspace של הדומיין יכול לספק לכם את פרטי הכניסה האלה.

שלבי הפריסה

כדי לפרוס את פלאגין יצירת האינדקס:

  1. התקנה של Norconex HTTP Collector ותוכנת הפלאגין ליצירת אינדקס
  2. הגדרת Google Cloud Search
  3. הגדרת Norconex HTTP Collector
  4. הגדרת סריקת אתרים
  5. התחלת סריקת אינטרנט והעלאת תוכן

שלב 1: התקנה של Norconex HTTP Collector ותוכנת הפלאגין של indexer

  1. מורידים את תוכנת ה-commiter של Norconex מהדף הזה.
  2. ביטול הדחיסה של התוכנה שהורדה לתיקייה ~/norconex/
  3. משכפלים את התוסף commiter מ-GitHub. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ולאחר מכן cd norconex-committer-plugin
  4. בודקים את הגרסה הרצויה של פלאגין ה-commiter ויוצרים את קובץ ה-ZIP: ‫git checkout tags/v1-0.0.3 ו-mvn package (כדי לדלג על הבדיקות כשיוצרים את המחבר, משתמשים ב-mvn package -DskipTests).
  5. cd target
  6. מעתיקים את קובץ ה-JAR של הפלאגין שנבנה לתיקיית הספרייה של norconex. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. מחלצים את קובץ ה-ZIP שיצרתם ומבטלים את הדחיסה שלו: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. מריצים את סקריפט ההתקנה כדי להעתיק את קובץ ה-JAR של הפלאגין ואת כל הספריות הנדרשות לספרייה של ה-HTTP Collector:
    1. עוברים אל הפלאגין שחולץ מהקובץ הדחוס שלמעלה: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. מריצים את הפקודה $ sh install.sh ומזינים את הנתיב המלא אל norconex/norconex-collector-http-{version}/lib בתור ספריית היעד כשמתבקשים.
    3. אם נמצאים קובצי jar כפולים, בוחרים באפשרות 1 (העתקת קובץ ה-Jar של המקור רק אם הגרסה שלו גדולה או זהה לגרסת קובץ ה-Jar של היעד אחרי שינוי השם של קובץ ה-Jar של היעד).

שלב 2: הגדרת Google Cloud Search

כדי שהפלאגין של הכלי ליצירת אינדקס יתחבר ל-Norconex HTTP Collector ויצור אינדקס של התוכן הרלוונטי, צריך ליצור את קובץ ההגדרה של Cloud Search בספריית Norconex שבה מותקן Norconex HTTP Collector. ‫Google ממליצה לתת לקובץ ההגדרות של Cloud Search את השם sdk-configuration.properties.

קובץ התצורה הזה חייב להכיל צמדי מפתח/ערך שמגדירים פרמטר. בקובץ התצורה צריך לציין לפחות את הפרמטרים הבאים, שנדרשים כדי לגשת למקור הנתונים של Cloud Search.

הגדרה פרמטר
מזהה מקור הנתונים api.sourceId = 1234567890abcdef
חובה. מזהה המקור של Cloud Search שהוגדר על ידי האדמין ב-Google Workspace.
חשבון שירות api.serviceAccountPrivateKeyFile = ./PrivateKey.json
חובה. קובץ מפתח של חשבון שירות Cloud Search שנוצר על ידי האדמין ב-Google Workspace לצורך נגישות לתוסף של כלי ליצירת אינדקסים.

בדוגמה הבאה מוצג קובץ sdk-configuration.properties.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

קובץ ההגדרות יכול להכיל גם פרמטרים של הגדרות שסופקו על ידי Google. הפרמטרים האלה יכולים להשפיע על האופן שבו התוסף הזה דוחף נתונים ל-Google Cloud Search API. לדוגמה, קבוצת הפרמטרים batch.* מציינת איך המחבר משלב בקשות.

אם לא מגדירים פרמטר בקובץ ההגדרות, המערכת משתמשת בערך ברירת המחדל, אם הוא זמין. תיאורים מפורטים של כל פרמטר מופיעים במאמר פרמטרים של מחברים שסופקו על ידי Google.

אתם יכולים להגדיר את התוסף של כלי יצירת האינדקס כדי לאכלס מטא-נתונים ונתונים מוּבְנִים עבור תוכן שנמצא בתהליך יצירת אינדקס. אפשר לחלץ את הערכים שיוזנו בשדות של מטא-נתונים ונתונים מובְנים מתגי מטא בתוכן HTML שמתווסף לאינדקס, או לציין ערכי ברירת מחדל בקובץ ההגדרות.

הגדרה פרמטר
כותרת itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
כברירת מחדל, הפלאגין משתמש ב-HTML title בתור שם המסמך שמתווסף לאינדקס. אם חסרה כותרת, אפשר להפנות למאפיין המטא-נתונים שמכיל את הערך שמתאים לכותרת המסמך או להגדיר ערך ברירת מחדל.
חותמת הזמן של היצירה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של יצירת המסמך.
זמן השינוי האחרון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
מאפיין המטא-נתונים שמכיל את הערך של חותמת הזמן של השינוי האחרון במסמך.
שפת המסמך itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שמתווספים לאינדקס.
סוג אובייקט בסכימה itemMetadata.objectType=movie
סוג האובייקט שבו האתר משתמש, כפי שמוגדר ב הגדרות האובייקט של סכימת מקור הנתונים. אם לא מציינים את המאפיין הזה, המחבר לא יוסיף לאינדקס נתונים מובְנים.

הערה: מאפיין ההגדרה הזה מצביע על ערך ולא על מאפיין מטא-נתונים, ואין תמיכה בסיומות .field ו-.defaultValue.

פורמטים של תאריך ושעה

פורמטים של תאריך ושעה מציינים את הפורמטים הצפויים במאפייני המטא-נתונים. אם קובץ ההגדרות לא מכיל את הפרמטר הזה, המערכת תשתמש בערכי ברירת המחדל. הטבלה הבאה מציגה את הפרמטר הזה.

הגדרה

פרמטר

דפוסי תאריך ושעה נוספים

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

רשימה מופרדת בנקודה-פסיק של דפוסי java.time.format.DateTimeFormatter נוספים. הדפוסים משמשים לניתוח ערכי מחרוזות של שדות תאריך או תאריך ושעה במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

שלב 3: הגדרה של Norconex HTTP Collector

ארכיון ה-ZIP‏ norconex-committer-google-cloud-search-{version}.zipכולל קובץ תצורה לדוגמה, minimum-config.xml.

‫Google ממליצה להתחיל את ההגדרה בהעתקה של קובץ לדוגמה:

  1. עוברים לספרייה של Norconex HTTP Collector: ‏
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. מעתיקים את קובץ התצורה:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. עורכים את הקובץ החדש שנוצר (בדוגמה הזו, gcs-crawl-config.xml) ומוסיפים או מחליפים את הצמתים הקיימים <committer> ו-<tagger> כמו שמתואר בטבלה הבאה.
הגדרה פרמטר
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

שדה חובה. כדי להפעיל את הפלאגין, צריך להוסיף צומת <committer> כצומת צאצא של צומת הבסיס <httpcollector>.
<UploadFormat> <uploadFormat>raw</uploadFormat>
אופציונלי. הפורמט שבו התוכן של המסמך מועבר על ידי תוסף ההוספה לאינדקס אל Google Cloud Search Indexer API. הערכים התקינים הם:
  • raw: התוסף של כלי היצירה של האינדקסים דוחף תוכן מקורי של מסמכים שלא עבר המרה.
  • text: הפלאגין של הכלי ליצירת אינדקסים דוחף תוכן טקסטואלי שחולץ.

ערך ברירת המחדל הוא raw.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
חובה אם הערך של <UploadFormat> הוא raw. במקרה כזה, התוסף ליצירת אינדקס צריך את שדה התוכן הבינארי של המסמך כדי להיות זמין.

צריך להוסיף את הצומת BinaryContentTagger <tagger> כרכיב צאצא של הצומת <importer> / <preParseHandlers>.

בדוגמה הבאה מוצג השינוי הנדרש ב- gcs-crawl-config.xml.

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

שלב 4: הגדרת סריקת אתרים

לפני שמתחילים בסריקת אינטרנט, צריך להגדיר את הסריקה כך שהיא תכלול רק מידע שהארגון רוצה שיהיה זמין בתוצאות החיפוש. ההגדרות הכי חשובות לסריקת אתרים הן חלק מ<crawler> הצמתים ויכולות לכלול:

  • כתובות URL להתחלה
  • עומק הסריקה המקסימלי
  • מספר השרשורים

משנים את ערכי ההגדרות האלה לפי הצורך. מידע מפורט יותר על הגדרת סריקת אתרים ורשימה מלאה של פרמטרים זמינים להגדרה זמינים בדף ההגדרה של HTTP Collector.

שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן

אחרי שמתקינים ומגדירים את פלאגין יצירת האינדקס, אפשר להפעיל אותו במצב מקומי.

בדוגמה הבאה מניחים שהרכיבים הנדרשים נמצאים בספרייה המקומית במערכת Linux. מריצים את הפקודה הבאה:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

מעקב אחרי הסורק באמצעות JEF Monitor

‫Norconex JEF (Job Execution Framework) Monitor הוא כלי גרפי למעקב אחר ההתקדמות של תהליכים ומשימות של Norconex Web Crawler (HTTP Collector). מדריך מלא להגדרת כלי השירות הזה זמין במאמר בנושא מעקב אחר ההתקדמות של הסורק באמצעות JEF Monitor.