เอกสารนี้มีวัตถุประสงค์เพื่ออธิบายการเข้าชมจาก Crawler ที่ตรวจสอบความถูกต้องของราคาการขนส่งของ Google
หมายเหตุเกี่ยวกับจำนวนคำค้นหา
ตัวอย่างเช่น หากเราตกลงที่จะส่งคำค้นหา 5,000 รายการต่อวัน หมายความว่า 5,000 ครั้งต่อวัน (กระจายอย่างสม่ำเสมอตลอดทั้งวัน ซึ่งก็คือประมาณ 1 ครั้งทุกๆ 17 วินาที) Crawler ของเราจะดำเนินการทั้งหมดต่อไปนี้ที่ผู้ใช้ทั่วไปจะทำ
เริ่มจาก Google Search แล้วคลิกลิงก์พาร์ทเนอร์
เลือกแผนการเดินทางที่ต้องการ (หากยังไม่ได้เลือก)
คลิก "ต่อไป" จนกว่าจะถึงหน้าที่ผู้ใช้ต้องป้อน รายละเอียดส่วนตัว / การชำระเงิน
อ่านรายละเอียดราคาสุดท้ายจากหน้าเว็บ
Crawler จะกรองทรัพยากรที่ดึงข้อมูลมา
Crawler จะดึงข้อมูลเฉพาะทรัพยากรที่จำเป็นต่อการรับข้อมูลที่เราสนใจ ได้แก่ รายละเอียดราคาและความพร้อมจำหน่ายสินค้า โดยเฉพาะอย่างยิ่ง หมายความว่าโดยปกติแล้วระบบจะดึงข้อมูลทรัพยากรจากเว็บไซต์ของพาร์ทเนอร์เท่านั้น (กล่าวคือ เราจะอนุญาตเฉพาะ URL จากโดเมนเดียวกัน) นอกจากนี้ เรายังหลีกเลี่ยงการดึงข้อมูล ทรัพยากรที่ไม่จำเป็นต่อการอ่านข้อมูลราคาที่ถูกต้อง เช่น รูปภาพ
โดยเฉพาะอย่างยิ่ง หมายความว่า Crawler จะไม่โหลดและเรียกใช้สคริปต์จากบุคคลที่สาม (Google Analytics, Facebook, Criteo...) ดังนั้นจึงควรยกเว้นการเข้าชมของ Crawler จากข้อมูลวิเคราะห์เหล่านั้น
กำลังแคช
เพื่อลดภาระงานในเว็บไซต์พาร์ทเนอร์ โดยทั่วไปแล้ว เราจะกำหนดค่า Crawler ให้ยึดตามส่วนหัวการแคช HTTP มาตรฐานทั้งหมดที่มีในการตอบกลับ ซึ่งหมายความว่าสำหรับเว็บไซต์ที่กำหนดค่าอย่างถูกต้อง เราจะหลีกเลี่ยงการดึงข้อมูลเนื้อหาที่เปลี่ยนแปลงไม่บ่อย (เช่น ไลบรารี JavaScript) ซ้ำๆ
การแก้ปัญหา
การตรวจสอบคุณภาพของเครือข่าย Crawler ขึ้นอยู่กับการเข้าถึงเว็บไซต์ของพาร์ทเนอร์ ดูข้อมูลเกี่ยวกับวิธีดำเนินการได้ในบทความนี้ในศูนย์ช่วยเหลือ