המדריך הזה מיועד לאדמינים שאחראים על הורדה, פריסה ותחזוקה של תוסף האינדקס של Google Cloud Search Norconex HTTP Collector. חשוב שתכירו את Linux, את העקרונות הבסיסיים של סריקת אתרים, XML ו-Norconex HTTP Collector.
המדריך הזה כולל הוראות לביצוע הפעולות הבאות:
- מורידים את תוכנת הפלאגין של יצירת האינדקס.
- מגדירים את Cloud Search.
- הגדרת Norconex HTTP Collector וסריקת אתרים.
- מתחילים בסריקת האינטרנט ומעלים את התוכן.
במדריך הזה לא מופיע מידע על המשימות שהאדמין ב-Google Workspace צריך לבצע. מידע על המשימות האלה מופיע במאמר בנושא ניהול מקורות נתונים של צד שלישי.
סקירה כללית של התוסף Norconex HTTP Collector indexer
כברירת מחדל, Cloud Search יכול לגלות תוכן ממוצרי Google Workspace, כמו Google Docs ו-Gmail, להוסיף אותו לאינדקס ולהציג אותו. כדי לכלול תוכן מהאינטרנט, אפשר להשתמש בפלאגין של כלי ליצירת אינדקסים ל-Norconex HTTP Collector, סורק אינטרנט ארגוני בקוד פתוח.
קבצים של מאפייני הגדרה
כדי לאפשר לתוסף לסרוק ולהעלות תוכן, צריך לספק מידע ספציפי בשני קובצי תצורה:
-
{gcs-crawl-config.xml}: הגדרות של Norconex HTTP Collector. -
sdk-configuration.properties: הגדרות ל-Cloud Search.
סריקת אינטרנט והעלאת תוכן
אחרי שממלאים את קובצי ההגדרות, אפשר להתחיל בסריקת האינטרנט. הכלי Norconex HTTP Collector סורק את האינטרנט ומעלה תוכן מקורי של מסמכים בינאריים או מסמכי טקסט אל Cloud Search Indexing API.
דרישות מערכת
- מערכת הפעלה: Linux בלבד.
- גרסת Norconex: גרסה 2.8.0.
- תוכנה: Java JRE 1.8.
תמיכה ב-ACL
תוסף יצירת האינדקס תומך ברשימות של בקרת גישה (ACL) כדי לשלוט בגישה למסמכים בדומיין Google Workspace.
אם מפעילים רשימות ACL כברירת מחדל בהגדרת הפלאגין (defaultAcl.mode מוגדר לערך שונה מ-none), הפלאגין מחיל את ברירות המחדל האלה. אחרת, התוסף מעניק הרשאת קריאה לכל הדומיין. פרמטרים של מחברים שסופקו על ידי Google
דרישות מוקדמות
לפני שמפעילים את תוסף יצירת האינדקס, צריך לאסוף את הרכיבים הבאים:
- מפתח פרטי של Google Workspace (שכולל את מזהה חשבון השירות). הגדרת גישה ל-Cloud Search API
- מזהה מקור הנתונים של Google Workspace. אפשר לעיין במאמר בנושא ניהול מקורות נתונים של צד שלישי.
שלבי הפריסה
- התקנה של Norconex HTTP Collector ותוכנת הפלאגין
- הגדרת Cloud Search
- הגדרת Norconex HTTP Collector
- הגדרת סריקת אתרים
- התחלת סריקת אינטרנט והעלאת תוכן
שלב 1: התקנה של Norconex HTTP Collector ותוכנת הפלאגין
- מורידים את תוכנת ה-committer של Norconex מדף ההורדה של Norconex.
- מחפשים את התוכנה ומחלצים אותה לתיקייה
~/norconex/. משכפלים את הפלאגין של השולח:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginבודקים את הגרסה שנבחרה ויוצרים את הפלאגין:
git checkout tags/v1-0.0.3 mvn packageכדי לדלג על בדיקות, משתמשים ב-
mvn package -DskipTests.מעתיקים את קובץ ה-JAR לספרייה
libשל Norconex:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libמחלצים את קובץ ה-ZIP שנוצר:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3מריצים את סקריפט ההתקנה ומזינים את הנתיב המלא לספריית Norconex
lib:sh install.shאם מוצגת בקשה למחיקת קבצים כפולים, בוחרים באפשרות
1.
שלב 2: הגדרת Cloud Search
יוצרים את הספרייה sdk-configuration.properties בספרייה Norconex. בקובץ צריך לציין את הפרמטרים הבאים:
| הגדרה | פרמטר |
| מזהה מקור הנתונים | api.sourceId = 1234567890abcdef
שדה חובה. מזהה המקור מהאדמין ב-Google Workspace. |
| חשבון שירות | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
שדה חובה. קובץ המפתח של חשבון השירות. |
דוגמה sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
אפשר גם לכלול פרמטרים כמו batch.* כדי לשלוט באופן שבו התוסף דוחף נתונים. פרמטרים של מחברים שסופקו על ידי Google
כדי לאכלס את המטא-נתונים, מגדירים את הפרמטרים האופציונליים האלה:
| הגדרה | פרמטר |
| כותרת | itemMetadata.title.field=movieTitle |
| סוג אובייקט הסכימה | itemMetadata.objectType=movie |
שלב 3: הגדרה של Norconex HTTP Collector
התוסף כולל קובץ לדוגמה, minimum-config.xml.
עוברים לספרייה Norconex ומעתיקים את הדוגמה:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlעריכה
gcs-crawl-config.xmlכדי להוסיף או להחליף צמתי<committer>ו-<tagger>:
| הגדרה | פרמטר |
צומת <committer> |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
חובה. מוסיפים את השורה הזו לצומת <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
אופציונלי. raw או text. ברירת המחדל היא raw. |
דוגמה gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
שלב 4: הגדרת סריקת אתרים
מגדירים את הצמתים <crawler> בהתאם לצרכים, כולל:
- כתובות URL להתחלה
- עומק הסריקה המקסימלי
- מספר השרשורים
אפשר לעיין בדף ההגדרה של Norconex.
שלב 5: מתחילים סריקת אינטרנט והעלאת תוכן
מריצים את הכלי לאיסוף נתונים במצב מקומי:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
מעקב אחרי הסורק באמצעות JEF Monitor
הכלי Norconex JEF (Job Execution Framework) Monitor מספק תצוגה גרפית של ההתקדמות. אפשר לעיין במאמר מעקב אחר הסורק באמצעות JEF Monitor.