โปรแกรมรวบรวมข้อมูลความถูกต้องของราคาใน Google Transport

เอกสารนี้มีวัตถุประสงค์เพื่ออธิบายการเข้าชมจาก Crawler ที่ตรวจสอบความถูกต้องของราคาการขนส่งของ Google

หมายเหตุเกี่ยวกับจำนวนคำค้นหา

ตัวอย่างเช่น หากเราตกลงที่จะส่งคำค้นหา 5,000 รายการต่อวัน หมายความว่า 5,000 ครั้งต่อวัน (กระจายอย่างสม่ำเสมอตลอดทั้งวัน ซึ่งก็คือประมาณ 1 ครั้งทุกๆ 17 วินาที) Crawler ของเราจะดำเนินการทั้งหมดต่อไปนี้ที่ผู้ใช้ทั่วไปจะทำ

  • เริ่มจาก Google Search แล้วคลิกลิงก์พาร์ทเนอร์

  • เลือกแผนการเดินทางที่ต้องการ (หากยังไม่ได้เลือก)

  • คลิก "ต่อไป" จนกว่าจะถึงหน้าที่ผู้ใช้ต้องป้อน รายละเอียดส่วนตัว / การชำระเงิน

  • อ่านรายละเอียดราคาสุดท้ายจากหน้าเว็บ

Crawler จะกรองทรัพยากรที่ดึงข้อมูลมา

Crawler จะดึงข้อมูลเฉพาะทรัพยากรที่จำเป็นต่อการรับข้อมูลที่เราสนใจ ได้แก่ รายละเอียดราคาและความพร้อมจำหน่ายสินค้า โดยเฉพาะอย่างยิ่ง หมายความว่าโดยปกติแล้วระบบจะดึงข้อมูลทรัพยากรจากเว็บไซต์ของพาร์ทเนอร์เท่านั้น (กล่าวคือ เราจะอนุญาตเฉพาะ URL จากโดเมนเดียวกัน) นอกจากนี้ เรายังหลีกเลี่ยงการดึงข้อมูล ทรัพยากรที่ไม่จำเป็นต่อการอ่านข้อมูลราคาที่ถูกต้อง เช่น รูปภาพ

โดยเฉพาะอย่างยิ่ง หมายความว่า Crawler จะไม่โหลดและเรียกใช้สคริปต์จากบุคคลที่สาม (Google Analytics, Facebook, Criteo...) ดังนั้นจึงควรยกเว้นการเข้าชมของ Crawler จากข้อมูลวิเคราะห์เหล่านั้น

กำลังแคช

เพื่อลดภาระงานในเว็บไซต์พาร์ทเนอร์ โดยทั่วไปแล้ว เราจะกำหนดค่า Crawler ให้ยึดตามส่วนหัวการแคช HTTP มาตรฐานทั้งหมดที่มีในการตอบกลับ ซึ่งหมายความว่าสำหรับเว็บไซต์ที่กำหนดค่าอย่างถูกต้อง เราจะหลีกเลี่ยงการดึงข้อมูลเนื้อหาที่เปลี่ยนแปลงไม่บ่อย (เช่น ไลบรารี JavaScript) ซ้ำๆ

การแก้ปัญหา

การตรวจสอบคุณภาพของเครือข่าย Crawler ขึ้นอยู่กับการเข้าถึงเว็บไซต์ของพาร์ทเนอร์ ดูข้อมูลเกี่ยวกับวิธีดำเนินการได้ในบทความนี้ในศูนย์ช่วยเหลือ