המסמך הזה נועד לתאר את תעבורת הנתונים מסורקי הדיוק של מחירי התובלה של Google.
הערה לגבי מספר השאילתות
לדוגמה, אם הסכמנו לשלוח 5,000 שאילתות ביום, המשמעות היא שבמהלך היום (בחלוקה שווה, כלומר בערך אחת כל 17 שניות), הסורק שלנו מבצע את כל הפעולות הבאות שמשתמש רגיל מבצע:
מתחילים בחיפוש Google ולוחצים על הקישור לשותף
בוחרים את מסלול הנסיעה הרצוי (אם הוא לא נבחר כבר).
לוחצים על 'המשך' עד שמגיעים לדף שבו המשתמש צריך להזין פרטים אישיים או פרטי תשלום.
קריאת פרטי המחיר הסופי מהדף
הסורק מסנן את המשאבים שאוחזרו
הסורק מאחזר רק את המשאבים שנדרשים כדי לקבל את המידע שמעניין אותנו: פרטי המחיר והזמינות. במיוחד, זה אומר שבדרך כלל הוא מאחזר רק משאבים מהאתר של השותף (כלומר, אנחנו מאשרים רק כתובות URL מאותו דומיין). בנוסף, אנחנו לא מאחזרים משאבים שלא נדרשים לקריאת נתוני המחיר הנכונים, כמו תמונות.
במילים אחרות, הסורק לא טוען ולא מפעיל סקריפטים מצדדים שלישיים (Google Analytics, Facebook, Criteo...), ולכן צריך להחריג את התנועה מהסורק מניתוח הנתונים האלה.
שמירה במטמון
כדי להפחית את העומס על אתר השותף, בדרך כלל הסורקים שלנו מוגדרים כך שהם יתייחסו לכל כותרות המטמון הרגילות של HTTP שמופיעות בתגובה. המשמעות היא שבאתרים שהוגדרו בצורה נכונה, אנחנו נמנעים מאחזור חוזר של תוכן שמשתנה לעיתים רחוקות (למשל, ספריות JavaScript).
פתרון בעיות
בדיקות האיכות של רשת הסורקים שלנו תלויות בגישה לאתר השותף. ההוראות מפורטות במאמר הזה במרכז העזרה.