Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

יצירת מחבר של תוכן

מחבר תוכן הוא תוכנה שסורקת נתונים במאגר ארגוני ומאכלסת מקור נתונים. ‫Google מספקת את האפשרויות הבאות לפיתוח מחברי תוכן:

‫SDK של מחבר תוכן. האפשרות הזו מתאימה למתכנתי Java. ה-SDK הוא wrapper סביב API בארכיטקטורת REST שמאפשר ליצור מחברים במהירות. כדי ליצור מחבר תוכן באמצעות ה-SDK, אפשר לעיין במאמר יצירת מחבר תוכן באמצעות Content Connector SDK.
‫API בארכיטקטורת REST ברמה נמוכה או ספריות API. כדאי להשתמש באפשרויות האלה אם אתם לא משתמשים ב-Java או אם בסיס הקוד שלכם מתאים יותר ל-API בארכיטקטורת REST או לספרייה. כדי ליצור מחבר תוכן באמצעות ה-API בארכיטקטורת REST, אפשר לעיין במאמר בנושא יצירת מחבר תוכן באמצעות ה-API בארכיטקטורת REST.

מחבר תוכן טיפוסי מבצע את המשימות הבאות:

קריאה ועיבוד של פרמטרים של הגדרות.
שולף נתונים נפרדים שניתנים להוספה לאינדקס, שנקראים פריטים, ממאגר של צד שלישי.
משלב רשימות ACL, מטא-נתונים ונתוני תוכן לפריטים שניתן להוסיף לאינדקס.
הוספת פריטים לאינדקס במקור הנתונים של Cloud Search.
(אופציונלי) המערכת מאזינה להתראות על שינויים במאגר. שינויים בהתראות הופכים לבקשות להוספה לאינדקס כדי לשמור על סנכרון של מקור הנתונים ב-Cloud Search. המחבר מבצע את המשימה הזו רק אם המאגר תומך בזיהוי שינויים.

יצירת מחבר תוכן באמצעות Content Connector SDK

בקטעים הבאים מוסבר איך ליצור מחבר תוכן באמצעות Content Connector SDK.

הגדרת יחסי תלות

כוללים את התלויות האלה בקובץ ה-build.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

Gradle

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

יצירת הגדרות למחבר

כל מחבר משתמש בקובץ הגדרה לפרמטרים כמו מזהה המאגר. מגדירים פרמטרים כצמדי מפתח/ערך, כמו api.sourceId=1234567890abcdef.

ערכת ה-SDK של Google Cloud Search כוללת פרמטרים שסופקו על ידי Google לכל המחברים. צריך להצהיר על הפרטים הבאים בקובץ ההגדרות:

מחבר תוכן: צריך להצהיר על api.sourceId ועל api.serviceAccountPrivateKeyFile. הם מזהים את המאגר ואת המפתח הפרטי שנדרש לגישה.

מחבר זהויות: צריך להצהיר על api.identitySourceId כדי לזהות את מקור הזהויות החיצוני. לסנכרון משתמשים, צריך גם להצהיר על api.customerId (המזהה הייחודי של חשבון Google Workspace).

מצהירים על פרמטרים אחרים שסופקו על ידי Google רק כדי לשנות את ערכי ברירת המחדל שלהם. פרטים על יצירת מזהים ומפתחות זמינים במאמר בנושא פרמטרים שסופקו על ידי Google.

אפשר גם להגדיר פרמטרים ספציפיים למאגר בקובץ ההגדרות.

העברת קובץ התצורה למחבר

מגדירים את מאפיין המערכת config כדי להעביר את קובץ התצורה. משתמשים בארגומנט -D כשמפעילים את המחבר. לדוגמה:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

אם לא מציינים את הארגומנט הזה, ערכת ה-SDK מנסה להשתמש בקובץ בשם connector-config.properties בספרייה המקומית.

קביעת אסטרטגיית המעבר

התפקיד העיקרי של מחבר תוכן הוא לסרוק מאגר ולבצע אינדוקס של הנתונים שבו. צריך להטמיע אסטרטגיה על סמך הגודל והפריסה של המאגר. אתם יכולים לעצב אסטרטגיה משלכם או לבחור אסטרטגיה מתוך ה-SDK:

אסטרטגיית מעבר מלאה: סורק את כל המאגר ומבצע אינדוקס של כל פריט. האסטרטגיה הזו מתאימה בעיקר למאגרים קטנים שבהם אפשר להרשות לעצמכם את התקורה של סריקה מלאה במהלך כל אינדוקס. אפשר להשתמש בו למאגרי מידע קטנים עם נתונים סטטיים ברובם, לא היררכיים, או כשקשה לזהות שינויים.
אסטרטגיה למעבר בין רשימות: סורק את כל המאגר כדי לקבוע את הסטטוס של כל פריט, ואז יוצר אינדקס רק לפריטים חדשים או מעודכנים. אפשר להשתמש באפשרות הזו לעדכונים מצטברים של אינדקס גדול ולא היררכי, כשזיהוי שינויים לא נתמך.
מעבר על גרף: סורק צומת אב כדי לקבוע את הסטטוס של הפריטים שלו, ואז יוצר אינדקס לפריטים חדשים או מעודכנים בצומת הזה. לאחר מכן, המערכת מעבדת באופן רקורסיבי צמתים נמוכים יותר. אפשר להשתמש בזה למאגרי מידע היררכיים שבהם לא מעשי לפרט את כל המזהים, כמו מבני ספריות או אתרים.

ה-SDK מטמיע את האסטרטגיות האלה במחלקות של מחברי תבניות. התבניות האלה יכולות להאיץ את הפיתוח. כדי להשתמש בתבנית, אפשר לעיין בקטע המתאים:

יצירת מחבר למעבר מלא באמצעות מחלקת תבנית
יצירת מחבר למעבר על רשימה באמצעות מחלקת תבנית
יצירת מחבר למעבר בין צמתים בגרף באמצעות מחלקת תבנית

יצירת מחבר מלא למעבר על כל הנתונים באמצעות מחלקת תבנית

הקטע הזה מתייחס לקוד מתוך FullTraversalSample.

הטמעה של נקודת הכניסה למחבר

נקודת הכניסה היא השיטה main(). הוא יוצר מופע של Application ומפעיל את המחבר באמצעות קריאה ל-start().

לפני ששולחים קריאה ל-application.start(), משתמשים במחלקה IndexingApplication.Builder כדי ליצור מופע של התבנית FullTraversalConnector. התבנית הזו מקבלת אובייקט Repository.

FullTraversalSample.java

יצירת מחבר של תוכן קל לארגן דפים בעזרת אוספים אפשר לשמור ולסווג תוכן על סמך ההעדפות שלך.

יצירת מחבר תוכן באמצעות Content Connector SDK

הגדרת יחסי תלות

Maven

Gradle

יצירת הגדרות למחבר

העברת קובץ התצורה למחבר

קביעת אסטרטגיית המעבר

יצירת מחבר מלא למעבר על כל הנתונים באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה למחבר

הטמעה של ממשק המאגר

אחזור פרמטרים של הגדרה בהתאמה אישית

ביצוע סריקה מלאה

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת הפריט שאפשר להוסיף לאינדקס

אריזת כל פריט שאפשר להוסיף לאינדקס באיטרטור

השלבים הבאים

יצירת מחבר למעבר על רשימה באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה למחבר

הטמעה של ממשק המאגר

ביצוע מעבר ברשימה

שליחת מזהי פריטים וערכי גיבוב

שליפה וטיפול בכל פריט

טיפול בפריטים שנמחקו

טיפול בפריטים שלא השתנו

הגדרת ההרשאות לפריט

הגדרת המטא-נתונים של פריט

יצירת פריט שניתן להוסיף לאינדקס

השלבים הבאים

יצירת מחבר למעבר בין צמתים בגרף באמצעות מחלקת תבנית

הטמעה של נקודת הכניסה של המחבר

הטמעה של ממשק המאגר

ביצוע מעבר בין צמתים בגרף

שליחת מזהי פריטים וערכי גיבוב

שליפה וטיפול בכל פריט

טיפול בפריטים שנמחקו

הגדרת מטא-נתונים ויצירת הפריט

הוספת מזהי צאצא לתור של יצירת האינדקס

יצירת מחבר תוכן באמצעות API בארכיטקטורת REST

קביעת אסטרטגיית המעבר

הטמעה של אסטרטגיית המעבר ופריטים לאינדקס

טיפול בשינויים במאגר

יצירת מחבר של תוכן