פרמטרים של תצורה שסופקו על ידי Google

לכל מחבר משויך קובץ תצורה שמכיל פרמטרים שהמחבר משתמש בהם, כמו המזהה של המאגר. פרמטרים מוגדרים כצמדי key-value, למשל api.sourceId=1234567890abcdef.

ב-SDK של Google Cloud Search יש כמה פרמטרים של הגדרות שסופקו על ידי Google, שמשמשים מחברים שונים. מתוך פרמטרי התצורה שמסופקים על ידי Google, יש להגדיר בקובץ התצורה רק את הפרמטרים של גישה למקור נתונים. אין צורך להגדיר מחדש את הפרמטרים שסופקו על ידי Google בקובץ התצורה, אלא אם רוצים לשנות את ערכי ברירת המחדל.

בהפניה הזו מתוארים הפרמטרים של ההגדרות שסופקו על ידי Google.

דוגמה לקובץ תצורה

בדוגמה הבאה מוצג קובץ של הגדרת זהויות עם צמדי מפתח/ערך של פרמטר.

#
# Configuration file sample
#
api.sourceId=1234567890abcdef
api.identitySourceId=0987654321lmnopq
api.serviceAccountPrivateKeyFile= ./PrivateKey.json

#
# Traversal schedules
#
schedule.traversalIntervalSecs=7200
schedule.incrementalTraversalIntervalSecs=600
#
# Default ACLs
#
defaultAcl.mode=fallback
defaultAcl.public=true
  

פרמטרים שמוגדרים לעיתים קרובות

בקטע הזה מפורטים הפרמטרים הנדרשים והאופציונליים של הגדרות אישיות. אם לא תשנה ערכים עבור הפרמטרים האופציונליים, המחבר ישתמש בערכי ברירת המחדל שסופקו על ידי ה-SDK.

גישה למקור נתונים

בטבלה הבאה מפורטים כל הפרמטרים הנדרשים כדי להופיע בקובץ תצורה. הפרמטרים שבהם משתמשים תלויים בסוג המחבר שאתם יוצרים (מחבר תוכן או מחבר זהויות).

ההגדרה פרמטר
מזהה של מקור נתונים api.sourceId=1234567890abcdef

מחבר נדרש את הפרמטר הזה כדי לזהות את המיקום של המאגר. הערך הזה מתקבל כשמוסיפים מקור נתונים לחיפוש. הפרמטר הזה חייב להיות בקובצי תצורה של מחבר.

המזהה של מקור הזהות api.identitySourceId=0987654321lmnopq

הפרמטר הזה נדרש על ידי מחברי זהויות כדי לזהות את המיקום של מקור זהות חיצוני. את הערך הזה קיבלת כשמפים זהויות משתמשים ב-Cloud Search. הפרמטר הזה חייב להיות בכל קובצי התצורה של מחבר הזהויות.

קובץ מפתח פרטי לחשבון שירות api.serviceAccountPrivateKeyFile=./PrivateKey.json

הפרמטר מכיל את המפתח הפרטי שנדרש כדי לגשת למאגר. את הערך הזה קיבלת כשהגדרתם את הגישה ל-Google Cloud Search REST API. הפרמטר הזה חייב להיות בכל קובצי התצורה.

מזהה חשבון שירות api.serviceAccountId=123abcdef4567890

הפרמטר הזה מציין את המזהה של חשבון השירות. ערך ברירת המחדל של המחרוזת הריקה מותר רק כאשר קובץ התצורה מציין פרמטר של קובץ של מפתח פרטי. הפרמטר הזה נדרש אם קובץ המפתח הפרטי שלך אינו מפתח JSON.

מספר חשבון Google Workspace api.customerId=123abcdef4567890

הפרמטר הזה מציין את מספר החשבון של חשבון Google Workspace של הארגון. את הערך הזה קיבלת כשמפים זהויות משתמשים ב-Cloud Search. הפרמטר הזה נדרש כשמסנכרנים משתמשים באמצעות מחבר זהויות.

כתובת URL בסיסית api.rootUrl=baseURLPath

הפרמטר הזה מציין את נתיב כתובת ה-URL הבסיסית של שירות ההוספה לאינדקס.

ערך ברירת המחדל של הפרמטר הזה הוא מחרוזת ריקה, שמומרת ל-https://cloudsearch.googleapis.com.

לוחות זמנים של מעבר

הפרמטרים של התזמון קובעים את תדירות ההמתנה של המחבר בין מעברים.

ההגדרה פרמטר
מעבר מלא בהפעלת המחבר schedule.performTraversalOnStart=true|false

המחבר מבצע מעבר מלא בזמן אתחול המחבר, במקום להמתין עד שיפוג התוקף של המרווח הראשון. ערך ברירת המחדל הוא true.

מעבר מלא אחרי מרווח schedule.traversalIntervalSecs=intervalInSeconds

המחבר מבצע מעבר מלא לאחר מרווח זמן שצוין. צריך לציין את המרווח בין מעברים בשניות. ערך ברירת המחדל הוא 86400 (מספר השניות ביום).

יציאה לאחר מעבר יחיד connector.runOnce=true|false

המחבר מבצע מעבר מלא פעם אחת, ולאחר מכן יוצא. יש להגדיר את הפרמטר הזה ל-true רק אם משתמשים באסטרטגיית מעבר מלאה. אסטרטגיות של רישום ותרשים דורשות מעברים מרובים כדי לזהות שינויים ולהוסיף תוכן לאינדקס. ערך ברירת המחדל הוא false (אין לצאת אחרי מעבר אחד).

מעבר מצטבר אחרי מרווח schedule.incrementalTraversalIntervalSecs=intervalInSeconds

המחבר מבצע מעבר מצטבר לאחר מרווח זמן שצוין. ציון מרווח הזמן בין חציות בשניות. ערך ברירת המחדל הוא 300 (מספר השניות ב-5 דקות).

מרווחי זמן מתוזמנים בתור לסקרים schedule.pollQueueIntervalSecs=interval_in_seconds

המרווח בין המרווחים בין תור המשאלים המתוזמנים (בשניות). נעשה בו שימוש רק על ידי מחבר מעבר לרישום. ערך ברירת המחדל הוא 10.

רשימות של בקרת גישה

המחבר שולט בגישה לפריטים באמצעות רשימות ACL. מספר פרמטרים מאפשרים להגן על גישת המשתמשים לרשומות שנוספו לאינדקס עם רשימות ACL.

אם המאגר מכיל פרטי ACL נפרדים לכל פריט, צריך להעלות את כל פרטי ה-ACL כדי לשלוט בגישה לפריטים בתוך Cloud Search. אם המאגר מספק מידע חלקי על רשימות ACL או לא, ניתן לספק פרטי ACL שמוגדרים כברירת מחדל בפרמטרים הבאים, שמספק ה-SDK למחבר.

ההגדרה פרמטר
מצב ACL defaultAcl.mode=mode

מדיניות זו קובעת מתי להחיל את ברירת המחדל של ACL. הערכים האפשריים:

  • none: אל תשתמש ב-ACL המוגדר כברירת מחדל (במצב הזה, לא ניתן לחפש רשומות, אלא אם מגדירים רשימות ACL נפרדות)
  • fallback: השתמש בברירת המחדל של ACL רק אם אין עדיין ACL
  • append: הוספת ברירת מחדל של רשימת בקרת גישה ל-ACL קיים
  • override: החלפה של רשימת בקרת גישה קיימת ב-ACL המוגדרת כברירת מחדל

מצב ברירת המחדל הוא none.

רשימת ACL ציבורית המוגדרת כברירת מחדל defaultAcl.public=true|false

רשימת ה-ACL המשמשת כברירת מחדל בכל המאגר מוגדרת כ'גישה לדומיין ציבורי'. ערך ברירת המחדל הוא false.

קוראים נפוצים של קבוצות ACL defaultAcl.readers.groups=google:group1@mydomain.com, group2
קוראי ACL נפוצים defaultAcl.readers.users=user1, user2, google:user3@mydomain.com
רשימת ACL נפוצה לקוראים של קבוצות דחו defaultAcl.denied.groups=group3
דחיית קוראים של Common Acl defaultAcl.denied.users=user4, user5
גישה לכל הדומיין כדי לציין שכל רשומה שנוספה לאינדקס תהיה נגישה באופן ציבורי לכל משתמש בדומיין, מגדירים ערכים לשני הפרמטרים הבאים:
  • defaultAcl.mode=override
  • defaultACL.public=true
רשימת בקרת גישה מוגדרת משותפת כדי לציין ACL אחד לכל רשומה במאגר הנתונים, מגדירים את כל ערכי הפרמטרים הבאים:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1@mydomain.com, group2 code>
  • defaultAcl.readers.users=user1@mydomain.com, user2, google:user3@mydomain.com
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    ההנחה היא שכל משתמש וקבוצה שצוינו הם משתמשים/קבוצה המוגדרים בדומיין מקומי, אלא אם התחילית שלהם היא "google:" (קבוע מילולי).

    המשתמש או הקבוצה שמוגדרים כברירת מחדל הם מחרוזת ריקה. צריך לספק פרמטרים של משתמשים וקבוצות רק אם בשדה defaultAcl.public מוגדר הערך false. כדי לרשום כמה קבוצות ומשתמשים, אפשר להשתמש ברשימות שמופרדות בפסיקים.

    אם המדיניות defaultAcl.mode מוגדרת לערך none, לא ניתן לחפש ברשומות ללא רשימות ACL נפרדות.

פרמטרים של הגדרת מטא-נתונים

חלק מהמטא-נתונים של הפריטים ניתנים להגדרה. מחברים יכולים להגדיר שדות מטא-נתונים שניתנים להגדרה במהלך ההוספה לאינדקס. אם המחבר לא מגדיר שדה, הפרמטרים שבקובץ התצורה ישמשו להגדרת השדה.

בקובץ התצורה יש סדרה של פרמטרים של הגדרת מטא-נתונים בעלי שם, שמסומנים בסיומת .field, למשל itemMetadata.title.field=movieTitle. אם יש ערך לפרמטרים האלה, הוא ישמש להגדרת שדה המטא-נתונים. אם אין ערך לפרמטר המטא-נתונים בעל השם, המטא-נתונים מוגדרים באמצעות פרמטר עם הסיומת .defaultValue).

בטבלה הבאה מוצגים הפרמטרים של הגדרת המטא-נתונים.

הגדרה פרמטר
כותרת itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
שם הפריט. אם לא מוגדר ערך ב-title.field, ייעשה שימוש בערך של title.defaultValue.
כתובת ה-URL של מאגר המקור itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
כתובת ה-URL של הפריט שמופיעה בתוצאות החיפוש. אפשר פשוט להגדיר את defaultValue כך שיכלול כתובת URL של כל המאגר, למשל אם הנציג הוא קובץ CSV ויש רק כתובת URL אחת לכל פריט. אם לא מגדירים את sourceRepositoryUrl.field כערך, ייעשה שימוש בערך של sourceRepositoryUrl.defaultValue.
שם הקונטיינר itemMetadata.containerName.field=containerName
itemMetadata.containerName.defaultValue=myDefaultContainerName
שם הקונטיינר של הפריט, למשל שם של ספרייה או תיקייה של מערכת קבצים. אם לא מוגדר ערך ב-containerName.field, ייעשה שימוש בערך של containerName.defaultValue.
סוג האובייקט itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie
סוג האובייקט המשמש את המחבר, כפי שמוגדר בסכימה. המחבר לא יוסיף לאינדקס נתונים מובנים אם המאפיין הזה לא צוין.
אם לא מוגדר ערך ב-objectType.field, המערכת תשתמש בערך של objectType.defaultValue.
שעת יצירה itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
חותמת הזמן של יצירת המסמך. אם לא מוגדר ערך ב-createTime.field, ייעשה שימוש בערך של createTime.defaultValue.
שעת העדכון itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
חותמת הזמן של השינוי האחרון של הפריט. אם updateTime.field לא מוגדר כערך, ייעשה שימוש בערך של updateTime.defaultValue.
שפת התוכן itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
שפת התוכן של המסמכים שרוצים להוסיף לאינדקס. אם contentLanguage.field לא מוגדר כערך, ייעשה שימוש בערך של contentLanguage.defaultValue.
סוג MIME itemMetadata.mimeType.field=mimeType
itemMetadata.mimeType.defaultValue=image/bmp
סוג ה-mime המקורי של ItemContent.content במאגר המקור. האורך המקסימלי הוא 256 תווים. אם לא מוגדר ערך ב-mimeType.field, ייעשה שימוש בערך של mimeType.defaultValue.
מטא-נתונים של איכות החיפוש itemMetadata.searchQualityMetadata.quality.field=quality
itemMetadata.searchQualityMetadata.quality.defaultValue=1
המדד הזה משקף את איכות הפריט, שמשפיעה על איכות החיפוש. הערך צריך להיות בין 0.0 (האיכות הנמוכה ביותר) ל-1.0 (האיכות הגבוהה ביותר). ערך ברירת המחדל הוא 0.0. אם quality.field לא מוגדר כערך, ייעשה שימוש בערך של quality.defaultValue.
גיבוב itemMetadata.hash.field=hash
itemMetadata.hash.defaultValue=f0fda58630310a6dd91a7d8f0a4ceda2
ערך הגיבוב שסופק על ידי מבצע הקריאה ל-API. אפשר להשתמש בו עם השיטה items.push כדי לחשב מצב השתנה. האורך המקסימלי הוא 2,048 תווים. אם לא מוגדר ערך ב-hash.field, ייעשה שימוש בערך של hash.defaultValue.

פורמטים של תאריך ושעה

תבניות תאריך ושעה מציינים את הפורמטים הצפויים במאפייני מטא נתונים. אם קובץ התצורה לא מכיל את הפרמטר הזה, המערכת תשתמש בערכי ברירת המחדל. הטבלה הבאה מציגה את הפרמטר הזה.

הגדרה פרמטר
פורמטים נוספים של תאריך ושעה structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
רשימה מופרדת בנקודה ופסיק של תבניות java.time.format.DateTimeFormatter נוספות. התבניות האלה משמשות לניתוח ערכי מחרוזת בשדות של תאריך או תאריך במטא-נתונים או בסכימה. ערך ברירת המחדל הוא רשימה ריקה, אבל תמיד יש תמיכה בפורמטים RFC 3339 ו-RFC 1123.

נתונים מובְנים

ממשק ה-API להוספה לאינדקס של Cloud Search מספק שירות סכימה שבו ניתן להשתמש כדי להתאים אישית את האופן שבו הנתונים שלכם מתווספים לאינדקס ו-Cloud Search מוצגים. אם משתמשים בסכימה של מאגר מקומי, צריך לציין את שם הסכימה המקומית של הנתונים המובְנים.

ההגדרה פרמטר
שם סכימה מקומית structuredData.localSchema=mySchemaName

המערכת קוראת את שם הסכימה ממקור הנתונים ומשמשת לנתונים מובְנים של המאגר.

ברירת המחדל היא מחרוזת ריקה.

איכות התוכן והחיפוש

במאגרים שמכילים תוכן שמבוסס על רשומות או שדות (למשל ניהול קשרי לקוחות (CRM), קוד CVS או מסד נתונים), מערכת ה-SDK מאפשרת עיצוב אוטומטי של HTML לשדות נתונים. המחבר מגדיר את שדות הנתונים בתחילת הביצוע של המחבר, ולאחר מכן משתמש בתבנית תוכן כדי לעצב כל רשומת נתונים לפני ההעלאה ל-Cloud Search.

תבנית התוכן מגדירה את החשיבות של כל ערך שדה עבור חיפוש. השדה <title> של ה-HTML הוא שדה חובה ומוגדר בעדיפות הגבוהה ביותר. ניתן להקצות רמות חשיבות של איכות החיפוש בכל שאר שדות התוכן: גבוהה, בינונית או נמוכה. כל שדה תוכן שלא מוגדר בקטגוריה מסוימת מוגדר כברירת מחדל לעדיפות נמוכה.

ההגדרה פרמטר
כותרת HTML של התוכן contentTemplate.templateName.title=myTitleField

השדה 'כותרת HTML של התוכן' והשדה 'איכות החיפוש הגבוהה ביותר'. הפרמטר הזה נדרש רק אם משתמשים בתבנית של תוכן HTML. ערך ברירת המחדל הוא מחרוזת ריקה.

איכות חיפוש גבוהה בשדות תוכן contentTemplate.templateName.quality.high=hField1,hField2

לשדות התוכן ניתנת עדיפות גבוהה לחיפוש. ברירת המחדל היא מחרוזת ריקה.

איכות חיפוש בינונית בשדות תוכן contentTemplate.templateName.quality.medium=mField1,mField2

לשדות התוכן ניתנת עדיפות חיפוש בינונית. ברירת המחדל היא מחרוזת ריקה.

איכות חיפוש נמוכה בשדות תוכן contentTemplate.templateName.quality.low=lField1,lField2

לשדות התוכן הוגדרה עדיפות נמוכה לחיפוש. ברירת המחדל היא מחרוזת ריקה.

שדות תוכן שלא צוינו contentTemplate.templateName.unmappedColumnsMode=value

האופן שבו המחבר מטפל בשדות תוכן שלא צוינו. הערכים החוקיים כוללים:

  • APPEND – הוספת שדות תוכן שלא צוינו לתבנית
  • IGNORE – התעלמות משדות תוכן שלא צוינו

    ערך ברירת המחדל הוא APPEND.

הכללת שמות השדות בתבנית HTML contentTemplate.templateName.includeFieldName=true|false

ההגדרה קובעת אם לכלול את שמות השדות עם נתוני השדות בתבנית ה-HTML. ברירת המחדל היא true, והיא מאפשרת לחפש את שמות השדות כחלק מנתוני התוכן.

פרמטרים שמוגדרים באופן נדיר

לעיתים רחוקות צריך להגדיר את הפרמטרים שמפורטים בקטע הזה. ברירות המחדל של הפרמטרים נקבעות כדי להשיג ביצועים אופטימליים. Google לא ממליצה להגדיר את הפרמטרים האלה לערכים שונים מברירות המחדל שלהם בלי דרישות ספציפיות במאגר.

הגדרת שרת Proxy

ה-SDK מאפשר לך להגדיר את המחבר שלך לשימוש בשרת proxy לחיבורים יוצאים.

הפרמטרים transport.proxy.hostname ו-transport.proxy.port נדרשים כדי לאפשר העברה באמצעות שרת proxy. יכול להיות שיהיה צורך בפרמטרים האחרים אם שרת ה-proxy מחייב אימות או פועל באמצעות פרוטוקול SOCKS במקום HTTP. אם transport.proxy.hostname לא מוגדר, ה-SDK לא ישתמש בשרת proxy.

ההגדרה פרמטר
שם המארח transport.proxy.hostname=hostname

שם המארח של שרת ה-proxy. הפרמטר הזה נדרש בעת שימוש בשרת proxy.

נמל transport.proxy.port=port

מספר היציאה של שרת ה-proxy. הפרמטר הזה נדרש בעת שימוש בשרת proxy.

סוג שרת Proxy transport.proxy.type=type

הסוג של שרת ה-proxy. הערכים החוקיים כוללים:

  • HTTP – שרת ה-proxy מקבל ומעביר בקשות באמצעות HTTP.
  • SOCKS – שרת ה-proxy מקבל ומעביר חבילות דרך פרוטוקול SOCKS.

ערך ברירת המחדל הוא HTTP.

שם המשתמש transport.proxy.username=username

שם המשתמש לשימוש במהלך בניית אסימון הרשאה של שרת proxy. הפרמטר הזה הוא אופציונלי ויש להגדיר אותו רק אם שרת ה-proxy מחייב אימות.

סיסמה transport.proxy.password=password

הסיסמה לשימוש במהלך בניית אסימון הרשאה של שרת proxy. הפרמטר הזה הוא אופציונלי ויש להגדיר אותו רק אם שרת ה-proxy מחייב אימות.

חוצה-קווים

ה-SDK מאפשר לציין משתמשים נפרדים מרובים כדי לאפשר מעברים מקבילים של מאגר נתונים. מחברי תבניות ה-SDK משתמשים בתכונה הזו.

ההגדרה פרמטר
גודל של מאגר שרשורים traverse.threadPoolSize=size

מספר הרתיכות שהמחבר יוצר כדי לאפשר עיבוד מקביל. איטרטור יחיד מאחזר פעולות באופן סידורי (בדרך כלל אובייקטים של RepositoryDoc), אבל הקריאות ל-API מעובדים במקביל תוך שימוש במספר השרשורים הזה.

ערך ברירת המחדל הוא 5.

גודל מחיצה traverse.partitionSize=batchSize

המספר של ApiOperation() שיש לעבד בקבוצות לפני אחזור APIOperation נוספים.

ערך ברירת המחדל הוא 50.

בקשות לסקרים של מעברונים

הליבה של תור ההוספה לאינדקס ב-Cloud Search היא תור בעדיפות גבוהה שמכיל רשומה לכל פריט שידוע שקיים. מחבר של דף אפליקציה יכול לשלוח בקשה לסקר פריטים מה-API להוספה לאינדקס. בבקשת הסקר, מקבלים את הרשומות עם העדיפות הגבוהה ביותר מתור ההוספה לאינדקס.

הפרמטרים הבאים משמשים את התבנית של מחבר דף האפליקציה ל-SDK כדי להגדיר פרמטרים של סקרים.

ההגדרה פרמטר
מעבר במאגר repository.traversers=t1, t2, t3, ...

יצירת כלי העברה אחד או יותר שבהם t1, t2, t3, ... הוא השם הייחודי של כל אחד מהם. לכל משתמש מעבר בעל שם יש קבוצת הגדרות משלו, שמזוהות באמצעות השם הייחודי של מבצע המעבר, למשל traversers.t1.hostload ו-traversers.t2.hostload.

הבאים בתור לסקר traverser.pollRequest.queue=mySpecialQueue

תור שמות שהמעבר הזה בודק. ברירת המחדל היא מחרוזת ריקה (לפי ההגדרה הזו, ברירת המחדל היא 'ברירת מחדל').

traverser.t1.pollRequest.queue=mySpecialQueue

אם יש לך מספר משתמשים למעבר בין מכשירים, עליך להגדיר את הסטטוס של כל פריט לכל מעבר (כאשר t1 מייצג משתמש ספציפי).

התנהגות הסקרים traverser.pollRequest.limit=maxItems

מספר הפריטים המקסימלי שאפשר להחזיר מבקשת קלפי. ערך ברירת המחדל הוא 0 (זהו הערך המקסימלי של ה-API).

traverser.t1.pollRequest.limit=limit

אם יש לך מספר משתמשים למעבר בין מכשירים, עליך להגדיר את הסטטוס של כל פריט לכל מעבר (כאשר t1 מייצג משתמש ספציפי).

סטטוס הפריט traverser.pollRequest.statuses=statuses

הסטטוסים של הפריט הספציפי שהמעבר הזה בודק, כאשר statuses יכול להיות כל שילוב של MODIFIED, NEW_ITEM (מופרדים בפסיקים), ברירת המחדל היא מחרוזת ריקה (מרמזת על כל ערכי הסטטוס).

traverser.t1.pollRequest.statuses=statusesForThisTraverser

אם יש לך מספר מעברים, עליך להגדיר את הסטטוסים של הפריטים לכל משתמש מעבר (כאשר t1 מייצג משתמש ספציפי).

עומס על המארח traverser.hostload=threads

המספר המקסימלי של שרשורים פעילים מקבילים הזמינים לתשאול. ערך ברירת המחדל הוא 5.

traverser.t1.hostload=threadsForThisTraverser

אם יש לך מספר מעברים, עליך להגדיר את הסטטוסים של הפריטים לכל משתמש מעבר (כאשר t1 מייצג משתמש ספציפי).

חסימה זמנית traverser.timeout=timeout

ערך זמן קצוב להפרעה לניסיון סקר ה-traverser.

ערך ברירת המחדל הוא 60.

traverser.t1.timeout=timeoutForThisTraverser

אם יש לך מספר מעברים, עליך להגדיר את הסטטוסים של הפריטים לכל משתמש מעבר (כאשר t1 מייצג משתמש ספציפי).

traverser.timeunit=timeoutUunit

יחידות הזמן הקצוב לתפוגה. הערכים החוקיים הם SECONDS, MINUTES,

traverser.t1.timeunit=timeoutUnit

אם יש לך מספר מעברים, עליך להגדיר את הסטטוסים של הפריטים לכל משתמש מעבר (כאשר t1 מייצג משתמש ספציפי).

ברוב המקרים, למחבר שמשתמש בתבנית 'מחבר הרישום של ה-SDK' נדרשת רק קבוצה אחת של פרמטרים לתשאול. במקרים מסוימים, ייתכן שיהיה צורך להגדיר יותר מקריטריון אחד של תשאול אם אלגוריתם החצייה מחייב הפרדה בין עיבוד הפריטים באמצעות תורים שונים.

במקרה הזה, אפשר להגדיר כמה קבוצות של פרמטרים של סקרים. מתחילים בציון השמות של קבוצות הפרמטרים באמצעות repository.traversers. לכל שם של משתמש מעבר מוגדר, מספקים את קובץ התצורה עם הפרמטרים בטבלה שלמעלה ומחליפים את t1 בשם של המעבר. הפעולה הזו יוצרת קבוצה של פרמטרים של סקרים לכל מעבר מוגדר.

נקודות ביקורת

נקודת ביקורת היא שימושית למעקב אחר המצב של מעבר מצטבר.

ההגדרה פרמטר
ספריית נקודות ביקורת connector.checkpointDirectory=/path/to/checkpoint

מציינת את הנתיב לספרייה המקומית לשימוש עבור נקודות הביקורת המצטברות והמלאות של המעבר.

העלאות תוכן

תוכן הפריט מועלה ל-Cloud Search עם הפריט כשגודל התוכן לא חורג מהסף שצוין. אם גודל התוכן חורג מהסף, התוכן יועלה בנפרד מהמטא-נתונים ומהנתונים המובְנים של הפריט.

ההגדרה פרמטר
סף לתוכן api.contentUploadThresholdBytes=bytes

הסף שנקבע לתוכן הקובע אם ההעלאה תתבצע "בשורה" עם הפריט לעומת שימוש בהעלאה נפרדת.

ערך ברירת המחדל הוא 100000 (כ-100KB).

קונטיינרים

בתבנית המחבר המלאה נעשה שימוש באלגוריתם של מתג תור זמני של מקור נתונים לצורך זיהוי רשומות שנמחקו במסד הנתונים. המשמעות היא שבכל מעבר מלא, הרשומות שאוחזרו ומופיעות בתור חדש, יחליפו את כל הרשומות הקיימות ב-Cloud Search שנוספו לאינדקס מהמעבר הקודם, שנמצאות בתור ישן.

ההגדרה פרמטר
תג שם של מאגר traverse.queueTag=instance

כדי להפעיל מספר מופעים של המחבר במקביל כדי ליצור אינדקס של מאגר נתונים משותף (במאגרי נתונים שונים או בחלקים נפרדים של מאגר נתונים משותף) בלי להפריע זה לזה, יש להקצות תג שם ייחודי של מאגר לכל הפעלה של המחבר. תג שם ייחודי מונע ממופע של מחבר למחוק רשומות של מישהו אחר.

תג השם מצורף למזהה תור המתג המלא של מחבר המעבר המלא.

השבתת זיהוי המחיקה traverse.useQueues=true|false

מציין אם המחבר משתמש בלוגיקה של מעבר לתור לזיהוי מחיקה.

ערך ברירת המחדל הוא true, ומציין שצריך להשתמש בתורים.

הערה: פרמטר ההגדרה הזה רלוונטי רק למחברים שמטמיעים את התבנית FullTraversalConnector.

מדיניות לגבי כמה יחידות בבת אחת

ב-SDK יש תמיכה במדיניות באצווה שמאפשרת לבצע את הפעולות הבאות:

  • בקשות מרובות
  • ציון מספר הבקשות בתור האצווה
  • ניהול של קבוצות הפעלה בו-זמנית
  • נקה בקשות מקובצות

ה-SDK מקבץ יחד את הבקשות של המחבר כדי לזרז את התפוקה במהלך ההעלאות. הטריגר ל-SDK להעלאה של קבוצה של בקשות הוא לפי מספר הבקשות או לפי הזמן הקצוב לתפוגה, המוקדם מביניהם. לדוגמה, אם עבר פרק הזמן של העיכוב באצווה מבלי להגיע לגודל האצווה, או אם מספר הפריטים באצווה חלף לפני שחלף פרק הזמן לעיכוב, העלאת האצווה מופעלת.

ההגדרה פרמטר
בקשות מרובות batch.batchSize=batchSize

הרצת מספר בקשות בבת אחת. ערך ברירת המחדל הוא 10.

מספר הבקשות בתור לאצוות batch.maxQueueLength=maxQueueLength

המספר המקסימלי של בקשות בתור להפעלה. ערך ברירת המחדל הוא 1000.

הפעלה בו-זמנית של קבוצות קבצים batch.maxActiveBatches=maxActiveBatches

מספר הקבוצות המותרות להפעלה בו-זמנית. ערך ברירת המחדל הוא 20.

נקה בקשות מקובצות באופן אוטומטי batch.maxBatchDelaySeconds=maxBatchDelay

מספר השניות שיש להמתין לפני שבקשות מקובצות נמחקות באופן אוטומטי. ערך ברירת המחדל הוא 5.

נקה בקשות מקובצות בעת כיבוי batch.flushOnShutdown=true|false

ניקוי בקשות מקובצות במהלך הפסקת השירות. ערך ברירת המחדל הוא true

רכיבי handler של חריגים

הפרמטרים של הגורמים החריגים קובעים איך המעבר ימשיך אחרי שהוא ייתקל בחריג.

ההגדרה פרמטר
הוראות מעבר במקרה של שגיאה traverse.exceptionHandler=exceptions

האופן שבו המעבר צריך להמשיך לאחר התרעה על חריגה. הערכים החוקיים הם:

  • 0--תמיד יש לבטל את המעבר לאחר שנתקלת בחריגה
  • num_exceptions (לדוגמה, 10)--ביטול לאחר שהמעבר ייתקל ב-num_exceptions שצוין.

    ערך ברירת המחדל הוא 0 (תמיד מתבטל במקרה של שגיאה).

  • ignore--התעלמות מהשגיאה
זמן ההמתנה בין חריגות abortExceptionHander.backoffMilliSeconds=backoff

זמן השהייה באלפיות השנייה כדי להמתין בין חריגים של handler שזוהו (לרוב, משך הזמן הזה משמש במעבר במאגר). ערך ברירת המחדל הוא 10.