Googlebot
Googlebot เป็นชื่อทั่วไปของโปรแกรมรวบรวมข้อมูลเว็บของ Google ชื่อนี้เป็นชื่อทั่วไปสำหรับโปรแกรมรวบรวมข้อมูล 2 ประเภทด้วยกัน ได้แก่ โปรแกรมรวบรวมข้อมูลเดสก์ท็อปซึ่งจำลองผู้ใช้ในเดสก์ท็อป และโปรแกรมรวบรวมข้อมูลในอุปกรณ์เคลื่อนที่ซึ่งจำลองผู้ใช้ในอุปกรณ์เคลื่อนที่
เว็บไซต์ของคุณน่าจะได้รับการรวบรวมข้อมูลจากทั้ง Googlebot สำหรับเดสก์ท็อปและ Googlebot สำหรับสมาร์ทโฟน คุณระบุประเภทย่อยของ Googlebot ได้จากการดูสตริง User Agent ในคำขอ แต่โปรแกรมรวบรวมข้อมูลทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดเป้าหมาย Googlebot สำหรับสมาร์ทโฟน หรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้
วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ
สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ
Googlebot ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับเว็บไซต์ที่โปรแกรมอาจรวบรวมข้อมูลเพื่อเป็นการลดการใช้แบนด์วิดท์ด้วย ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากคอมพิวเตอร์หลายเครื่องที่ Google.com โดยทั้งหมดใช้ User Agent ของ Googlebot เป้าหมายของเราคือรวบรวมข้อมูลหน้าเว็บจากเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทำให้เกิดปัญหากับแบนด์วิดท์ของเซิร์ฟเวอร์ของคุณ หากเว็บไซต์ตามคำขอให้รวบรวมข้อมูลของ Google ไม่ทัน ให้ขอเปลี่ยนอัตราการรวบรวมข้อมูล
โดยทั่วไป Googlebot จะรวบรวมข้อมูลผ่าน HTTP/1.1 อย่างไรก็ตาม ตั้งแต่เดือนพฤศจิกายน 2020 Googlebot อาจรวบรวมข้อมูลเว็บไซต์ที่อาจได้รับประโยชน์จากการดำเนินการนี้ผ่าน HTTP/2 หากเว็บไซต์ดังกล่าวรองรับ การรวบรวมข้อมูลนี้อาจบันทึกทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot แต่จะไม่ส่งผลต่อการจัดทําดัชนีหรือการจัดอันดับเว็บไซต์
หากเลือกที่จะไม่รวบรวมข้อมูลผ่าน HTTP/2 โปรดกำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Googlebot พยายามรวบรวมข้อมูลเว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีม Googlebot (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)
การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์
การเก็บเว็บเซิร์ฟเวอร์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บเซิร์ฟเวอร์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเซิร์ฟเวอร์ "ลับ" ของคุณไปยังเว็บเซิร์ฟเวอร์อื่น URL "ลับ" ของคุณอาจจะปรากฏในแท็กผู้อ้างอิงและจะจัดเก็บหรือเผยแพร่ได้โดยเว็บเซิร์ฟเวอร์อื่นในบันทึกผู้อ้างอิง ในทำนองเดียวกัน เว็บมีลิงก์ที่ล้าสมัยและเสียเป็นจำนวนมาก เมื่อใดก็ตามที่มีคนเผยแพร่ลิงก์ที่ไม่ถูกต้องไปยังเว็บไซต์ของคุณหรือไม่ได้อัปเดตลิงก์ให้สอดคล้องกับการเปลี่ยนแปลงในเซิร์ฟเวอร์ Googlebot จะพยายามรวบรวมข้อมูลลิงก์ที่ไม่ถูกต้องจากเว็บไซต์ของคุณ
หากต้องการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลเนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ
การยืนยัน Googlebot
ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าสตริง User Agent ที่ Googlebot ใช้นั้นมักจะถูกโปรแกรมรวบรวมข้อมูลอื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot