הסורקים של דיוק המחירים ב-Google Transport

המסמך הזה נועד לתאר את התנועה מהזחלונים של Google Transport למדידת רמת הדיוק של המחירים.

הערה לגבי מספר השאילתות

לדוגמה, אם הסכמנו לשלוח 5,000 שאילתות ביום, המשמעות היא ש-5,000 פעמים ביום (בחלוקה שווה במהלך היום, כלומר בערך אחת כל 17 שניות), הסורק שלנו מבצע את כל הפעולות הבאות שמשתמש רגיל היה מבצע:

  • מתחילים בחיפוש Google ולוחצים על הקישור לשותף

  • בוחרים את מסלול הנסיעה הרצוי (אם הוא עדיין לא נבחר)

  • לוחצים על 'המשך' עד שמגיעים לדף שבו המשתמש צריך להזין פרטים אישיים או פרטי תשלום

  • לקרוא את פרטי המחיר הסופי מהדף

המסננים של הסורק סיננו משאבים שאוחזרו

הסורק מאחזר רק את המשאבים הנדרשים כדי לקבל את המידע שאנחנו מעוניינים בו – פרטי המחיר והזמינות. באופן ספציפי, המשמעות היא שבדרך כלל המערכת מאחזרת משאבים רק מהאתר של השותף (כלומר, אנחנו נותנים הרשאה רק לכתובות URL מאותו דומיין). בנוסף, אנחנו נמנעים מאחזור של משאבים שלא נדרשים לקריאת נתוני המחיר הנכונים, כמו תמונות.

באופן ספציפי, המשמעות היא שהסורק לא טוען ומריץ סקריפטים של צדדים שלישיים (Google Analytics, ‏ Facebook, ‏ Criteo וכו'), ולכן צריך להחריג את התנועה מהסורק מניתוח הנתונים הזה.

שמירה במטמון

כדי לצמצם את העומס באתר של השותף, בדרך כלל הסורק שלנו מוגדר לפעול בהתאם לכל כותרות ה-http הסטנדרטיות לשמירת נתונים במטמון שמופיעות בתגובה. כלומר, באתרים שהוגדרו בצורה נכונה אנחנו נמנעים מאחזור חוזר של תוכן שמשתנה לעיתים רחוקות (למשל, ספריות JavaScript).

פתרון בעיות

כדי שבדיקות האיכות של רשת הסורקים שלנו יפעלו בצורה תקינה, אנחנו צריכים גישה לאתר של השותף. המידע הדרוש מופיע במאמר הזה במרכז העזרה.