הטמעת נתונים בכמות גדולה

הפידים של הנתונים מאפשרים לכם להציג את המסעדה, השירותים והתפריט שלכם בהזמנות מקצה לקצה.

מסמך זה מסביר איך לארח את מלאי שטחי הפרסום בארגז החול ואת מלאי שטחי הפרסום בסביבת הייצור, ואיך להשתמש בהטמעת נתונים בכמות גדולה כדי לעדכן את המלאי שלכם ב'הזמנה מקצה לקצה'.

סביבות של פיד נתונים

יש שלוש סביבות של פיד נתונים שזמינות לפיתוח השילוב:

סביבת הפיד תיאור הטמעת נתונים בכמות גדולה
ארגז חול סביבת הבדיקה לפיתוח הפיד. חובה
Production סביבת הייצור של מלאי שטחי הפרסום שלכם שרוצים להשיק. חובה

אירוח פידים של נתונים

כדי שהזמנה מקצה לקצה תעבד את הפידים של נתוני Sandbox וסביבת הייצור באמצעות הטמעת נתונים בכמות גדולה, עליכם לארח את הקבצים של פיד הנתונים ב-Google Cloud Storage, ב-Amazon S3 או ב-HTTPS באמצעות sitemap.

מומלץ לארח בנפרד את הפידים של הנתונים של סביבות הייצור וארגז החול. הגישה הזו מאפשרת לפתח ולבדיקה בסביבת הפיד של Sandbox לפני פריסת השינויים בסביבת הייצור.

לדוגמה, אם אתם משתמשים ב-Google Cloud Storage כאפשרות אירוח, יהיו לכם הנתיבים הבאים:

  • פיד ארגז חול: gs://foorestaurant-google-feed-sandbox/
  • פיד ייצור: gs://foorestaurant-google-feed-prod/

כדי לארח את מלאי שטחי הפרסום שלכם, מבצעים את הפעולות הבאות:

  1. יוצרים את הקבצים של פיד הנתונים.
  2. בוחרים פתרון אירוח.
  3. אירוח פידים של נתונים.
  4. חשוב לוודא שהקבצים של פיד הנתונים מתעדכנים באופן קבוע. צריך לעדכן את הפידים של נתוני הייצור מדי יום.

לפרטים נוספים על יצירת פיד מלאי, אפשר לעיין במסמכים של הישויות Restaurant, Service ו-Menu, וגם בקטע יצירת פיד נתונים.

הנחיות לגבי קבצים של פיד נתונים

כל קובץ, שיכול להכיל מספר ישויות, לא יכול לחרוג מ-200MB. הגודל המקסימלי של כל הישויות ברמה העליונה Restaurant , Service ו-Menu, יחד עם ישויות הצאצא שלהן, לא יעלה על 4MB.

בחירה של פתרון אירוח

בטבלה הבאה מפורטות האפשרויות לאירוח הפידים של הנתונים שלכם, והאופן שבו המארחים האלה עובדים עם הזמנה מקצה לקצה:

Amazon S3 Google Cloud Storage HTTPS עם Sitemap
פרטי כניסה וגישה

עליך לספק ל-Google את הפרטים הבאים:

  • מזהה מפתח הגישה
  • מפתח גישה סודי
  • הנתיבים לספריות S3 בסביבת הייצור ובארגז החול והקובץ marker.txt. הנתיב חייב להתחיל ב-s3://.

הקטגוריה של S3 צריכה לכלול את הפרטים הבאים:

  • קובצי פיד עבור המלאי שלכם.
  • marker.txt, שמכיל חותמת זמן המשמשת לאחזור.

קובץ marker.txt לדוגמה: 2018-12-03T08:30:42.694Z

צריך לספק ל-Google את הנתיבים לספריות של הקטגוריות בסביבת הייצור ובארגז החול ולקובץ marker.txt. הנתיבים חייבים להתחיל ב-gs://.

מוסיפים את חשבון השירות שקיבלתם מיועץ Google כקורא בקטגוריה של Google Cloud Storage.

אפשר לקרוא מידע נוסף על בקרת הגישה ל-Google Cloud Storage (GCS) במסוף Google Cloud Platform: הגדרת הרשאות בקטגוריה.

הקטגוריה של GCS צריכה לכלול את הפרטים הבאים:

  • קובצי פיד עבור המלאי שלכם.
  • marker.txt, שמכיל חותמת זמן המשמשת לאחזור.

קובץ marker.txt לדוגמה: 2018-12-03T08:30:42.694Z

עליך לספק ל-Google את הפרטים הבאים:

  • פרטי כניסה לאימות הבסיסי.
  • הנתיב לנתיבי sitemap בסביבת הייצור ובארגז החול. הנתיב חייב להתחיל ב-https://.
  • פרוטוקול: חובה שקובצי הפיד יהיו זמינים דרך HTTPS, ולא דרך HTTP.
  • אבטחה: Google ממליצה מאוד להגן על קובצי הפיד המתארחים שלכם באמצעות אימות בסיסי.
איך Google יודעת אילו קבצים צריך לאחזר רישום בספרייה של כל הקבצים בקטגוריה. רישום בספרייה של כל הקבצים בקטגוריה. כתובות URL נפרדות של קבצים שמופיעים ב-sitemap.
איך Google יודעת שקבצים מוכנים לאחזור כשמסיימים ליצור את הפידים של הנתונים, צריך לעדכן את הקובץ marker.txt בחותמת הזמן העדכנית ביותר. כשמסיימים ליצור את הפידים של הנתונים, צריך לעדכן את הקובץ marker.txt בחותמת הזמן העדכנית ביותר. בסיום יצירת הפידים של הנתונים, צריך לעדכן את כותרת התגובה last-modified של sitemap.xml בחותמת הזמן העדכנית ביותר.
מגבלות קובץ

מספר הקבצים המקסימלי: 100,000.

בקטגוריה של Amazon S3 צריכים להיות פחות מ-100,000 קבצים בסך הכול.

מספר הקבצים המקסימלי: 100,000.

בקטגוריה של Google Cloud Storage צריכים להיות פחות מ-100,000 קבצים בסך הכול.

מספר הקבצים המקסימלי: 100,000.

מספר נתיבי הקבצים בקובץ ה-XML של ה-Sitemap חייב להיות קטן מ-100,000.

חיבור פידים של נתונים להטמעת נתונים בכמות גדולה

אחרי שמארחים את הפידים, צריך לקשר אותם לפרויקט ב-Actions Center. ההגדרה הראשונית של הפידים בסביבת הייצור מתבצעת בדף משימות לתהליך ההצטרפות. בהמשך, כל משתמש עם תפקיד אדמין יכול לעדכן את ההגדרות של הפידים בסביבת הייצור וב-Sandbox בכל שלב, בדף פידים > הגדרות. סביבת Sandbox משמשת למטרות פיתוח ובדיקה, והפידים של סביבת הייצור מוצגים למשתמשים.

אם אתם מארחים פידים של נתונים ב-Amazon S3

  1. ב-Actions Center, עוברים אל Configuration > Feeds (פידים).
  2. לוחצים על עריכה וממלאים את הטופס לעדכון הפיד:

    • שיטת המסירה של הפיד: מגדירים את הערך Amazon S3.
    • קובץ הסמן: יש לציין את כתובת ה-URL של הקובץ marker.txt.
    • קובצי נתונים: מציינים את כתובת ה-URL של קטגוריית S3 שמכילה את הפידים של הנתונים.
    • Access ID: מזינים את מזהה מפתח הגישה של IAM עם הרשאות לקריאה ממשאבי S3.
    • מפתח גישה: מזינים את מפתח הגישה הסודי של IAM עם הרשאות לקריאה ממשאבי S3.
  3. לוחצים על שליחה.
  4. לאחר שעה עד שעתיים, בודקים אם הטמעת הנתונים בכמות גדולה מאחזרת את קובצי הפיד.

אם אתם מארחים את הפידים של הנתונים באמצעות Google Cloud Storage

  1. ב-Actions Center, עוברים אל Configuration > Feeds (פידים).
  2. לוחצים על עריכה וממלאים את הטופס לעדכון הפיד:

    • שיטת העברת הפיד: מגדירים ל-Google Cloud Storage.
    • קובץ הסמן: יש לציין את כתובת ה-URL של הקובץ marker.txt.
    • קובצי נתונים: מציינים את כתובת ה-URL של קטגוריית GCS שמכילה את הפידים של הנתונים.
  3. לוחצים על שליחה.
  4. נוצר חשבון שירות כדי לגשת לקטגוריה של GCS. אפשר למצוא את שם החשבון בפידים של הגדרות > אחרי השלמת המשימות של תהליך ההצטרפות. לחשבון השירות הזה נדרש התפקיד Storage Legacy Object Reader (קורא אובייקטים מדור קודם). אפשר לתת את התפקיד הזה לחשבון השירות בדף ה-IAM במסוף Google Cloud.
  5. לאחר שעה עד שעתיים, בודקים אם הטמעת הנתונים בכמות גדולה מאחזרת את קובצי הפיד.

אם אתם מארחים פידים של נתונים באמצעות HTTPS

  1. ב-Actions Center, עוברים אל Configuration > Feeds (פידים).
  2. לוחצים על עריכה וממלאים את הטופס לעדכון הפיד:

    • שיטת העברת הפיד: יש להגדיר את הערך HTTPS.
    • קובץ sitemap: מציינים את כתובת ה-URL של הקובץ sitemap.xml.
    • שם משתמש: מזינים את פרטי הכניסה של שם המשתמש כדי לגשת לשרת ה-HTTPS.
    • סיסמה: מזינים את הסיסמה כדי לגשת לשרת ה-HTTPS.
  3. לוחצים על שליחה.
  4. לאחר שעה עד שעתיים, בודקים אם הטמעת הנתונים בכמות גדולה מאחזרת את קובצי הפיד.

נתיבים לדוגמה

בטבלה הבאה יש נתיבים לדוגמה לכל אחת מאפשרויות האירוח:

Amazon S3 Google Cloud Storage HTTPS עם Sitemap
נתיב s3://foorestaurant-google-feed-sandbox/ gs://foorestaurant-google-feed-sandbox/ https://sandbox-foorestaurant.com/sitemap.xml
קובץ סימון s3://foorestaurant-google-feed-sandbox/marker.txt gs://foorestaurant-google-feed-sandbox/marker.txt לא רלוונטי

קובצי Sitemap לאירוח HTTPS

כשמגדירים קובצי sitemap, צריך לפעול לפי ההנחיות הבאות:

  • הקישורים ב-Sitemap חייבים להפנות לקבצים עצמם.
  • אם ה-sitemap כולל הפניות לספק שירותי ענן במקום שם הדומיין שלך, צריך לוודא שההתחלה של כתובות ה-URL, כמו https://www.yourcloudprovider.com/your_id, יציבה וייחודית למשימת האצווה.
  • חשוב להקפיד לא להעלות קובצי sitemap חלקיים (כמו במקרה של העלאת נתונים חלקיים). במקרה כזה, Google תטמיע רק את הקבצים שב-Sitemap. כתוצאה מכך, רמת המלאי שלך ירדה, וכתוצאה מכך ייתכן שנחסום את הטמעת הנתונים של הפיד.
  • מוודאים שהנתיבים לקבצים שמוזכרים ב-sitemap לא משתנים. לדוגמה, אל יופיעו ב-sitemap הפניה אל https://www.yourcloudprovider.com/your_id/10000.json היום, אבל מחר אפשר יהיה להפנות את ה-sitemap אל https://www.yourcloudprovider.com/your_id/20000.json.
Sitemap לדוגמה

לפניכם קובץ sitemap.xml לדוגמה שמציג קבצים של פיד נתונים:

דוגמה 1: ישויות שמקובצות על ידי מוכרים (מומלץ).

XML

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_1.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_2.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/restaurant_3.ndjson</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
</urlset>

דוגמה 2: ישויות מקובצות לפי סוגים.

XML

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
 <url>
   <loc>https://your_fulfillment_url.com/restaurant.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/menu.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
 <url>
   <loc>https://your_fulfillment_url.com/service.json</loc>
   <lastmod>2018-06-11T10:46:43+05:30</lastmod>
 </url>
</urlset>

עדכון הפידים של הנתונים

לאחר קישור הפידים של הנתונים, Google בודקת אם יש עדכונים פעם בשעה, אבל אנחנו מטמיעים את כל הפידים של הנתונים רק לאחר שינוי בקבצים marker.txt או sitemap.xml. אנחנו צופים שתעדכנו את הפידים של הנתונים פעם ביום כדי למנוע מלאי לא פעיל.

כדי לציין שהפידים של הנתונים שונו ומוכנים להטמעת נתונים בכמות גדולה, צריך לעדכן את שדה המטא-נתונים של האובייקטים last-modified בקובץ marker.txt (ל-GCP ול-S3) או את כותרת התגובה last-modified של הקובץ sitemap.xml. Google משתמשת בערכים האלה כדי לקבוע עד כמה פיד הנתונים עדכני.

בזמן הטמעת הפיד בקבוצות,

  • יתווספו ישויות חדשות שלא קיימות במלאי שטחי הפרסום הנוכחי שלך מקצה לקצה, ושאין בהן שגיאות.
  • ישויות שכבר קיימות במלאי ואין בהן שגיאות בהטמעת הנתונים, ושdateModified הן מאוחרות יותר מהרשומה הנוכחית שלהן. אם אין מאפיין dateModified, זמן ההתחלה של הטמעת הנתונים של הפיד עדכני יותר מהערך הנוכחי שהן יעודכנו, אחרת הן יסומנו כ'לא עדכניות'.
  • ישויות שהיו חלק מפיד קודם שלא נכללות יותר בפיד האצווה שעבר עיבוד יימחקו, בתנאי שאין בפיד שגיאות ברמת הקובץ.

צריך לעדכן את חותמת הזמן או את כותרת התגובה last-modified רק אחרי שכל הקבצים של פיד הנתונים נוצרים ומעודכנים. צריך להגביל את המשימות באצווה שמעדכנות את הפידים של הנתונים כך שיפעלו רק פעם ביום. לחלופין, יש לשמור על מרווח של שלוש שעות לפחות בין כל משימה באצווה. אם לא תנקוט את השלבים האלה, Google עלולה לאחזר קבצים לא פעילים.