Googlebot

Googlebot เป็นชื่อทั่วไปของโปรแกรมรวบรวมข้อมูลเว็บของ Google ชื่อนี้เป็นชื่อทั่วไปสำหรับโปรแกรมรวบรวมข้อมูล 2 ประเภทด้วยกัน ได้แก่ โปรแกรมรวบรวมข้อมูลเดสก์ท็อปซึ่งจำลองผู้ใช้ในเดสก์ท็อป และโปรแกรมรวบรวมข้อมูลในอุปกรณ์เคลื่อนที่ซึ่งจำลองผู้ใช้ในอุปกรณ์เคลื่อนที่

เว็บไซต์ของคุณน่าจะได้รับการรวบรวมข้อมูลจากทั้ง Googlebot สำหรับเดสก์ท็อปและ Googlebot สำหรับสมาร์ทโฟน คุณระบุประเภทย่อยของ Googlebot ได้จากการดูสตริง User Agent ในคำขอ แต่โปรแกรมรวบรวมข้อมูลทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดเป้าหมาย Googlebot สำหรับสมาร์ทโฟน หรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

หากเว็บไซต์ของคุณเปลี่ยนให้เหมาะกับอุปกรณ์เคลื่อนที่เป็นอันดับแรกใน Google คำขอรวบรวมข้อมูลส่วนใหญ่ของ Googlebot ก็จะทำโดยใช้โปรแกรมรวบรวมข้อมูลในอุปกรณ์เคลื่อนที่ และใช้โปรแกรมรวบรวมข้อมูลในเดสก์ท็อปเป็นส่วนน้อย แต่สำหรับเว็บไซต์ที่ยังไม่ได้เปลี่ยนให้เหมาะกับ "อุปกรณ์เคลื่อนที่เป็นอันดับแรก" การรวบรวมข้อมูลส่วนใหญ่จะทำโดยโปรแกรมรวบรวมข้อมูลในเดสก์ท็อป ในกรณีทั้งสอง โปรแกรมรวบรวมข้อมูลรองจะรวบรวมข้อมูลเฉพาะ URL ที่ได้รับการรวบรวมข้อมูลโดยโปรแกรมรวบรวมข้อมูลหลักแล้วเท่านั้น

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ

Googlebot ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น นอกจากนี้ เรายังใช้โปรแกรมรวบรวมข้อมูลจำนวนมากในเครื่องที่ตั้งอยู่ใกล้กับเว็บไซต์ที่โปรแกรมอาจรวบรวมข้อมูลเพื่อเป็นการลดการใช้แบนด์วิดท์ด้วย ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากคอมพิวเตอร์หลายเครื่องที่ Google.com โดยทั้งหมดใช้ User Agent ของ Googlebot เป้าหมายของเราคือรวบรวมข้อมูลหน้าเว็บจากเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทำให้เกิดปัญหากับแบนด์วิดท์ของเซิร์ฟเวอร์ของคุณ หากเว็บไซต์ตามคำขอให้รวบรวมข้อมูลของ Google ไม่ทัน ให้ขอเปลี่ยนอัตราการรวบรวมข้อมูล

โดยทั่วไป Googlebot จะรวบรวมข้อมูลผ่าน HTTP/1.1 อย่างไรก็ตาม ตั้งแต่เดือนพฤศจิกายน 2020 Googlebot อาจรวบรวมข้อมูลเว็บไซต์ที่อาจได้รับประโยชน์จากการดำเนินการนี้ผ่าน HTTP/2 หากเว็บไซต์ดังกล่าวรองรับ การรวบรวมข้อมูลนี้อาจบันทึกทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot แต่จะไม่ส่งผลต่อการจัดทําดัชนีหรือการจัดอันดับเว็บไซต์

หากเลือกที่จะไม่รวบรวมข้อมูลผ่าน HTTP/2 โปรดกำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Googlebot พยายามรวบรวมข้อมูลเว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีม Googlebot (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

การเก็บเว็บเซิร์ฟเวอร์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บเซิร์ฟเวอร์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนติดตามลิงก์จากเซิร์ฟเวอร์ "ลับ" ของคุณไปยังเว็บเซิร์ฟเวอร์อื่น URL "ลับ" ของคุณอาจจะปรากฏในแท็กผู้อ้างอิงและจะจัดเก็บหรือเผยแพร่ได้โดยเว็บเซิร์ฟเวอร์อื่นในบันทึกผู้อ้างอิง ในทำนองเดียวกัน เว็บมีลิงก์ที่ล้าสมัยและเสียเป็นจำนวนมาก เมื่อใดก็ตามที่มีคนเผยแพร่ลิงก์ที่ไม่ถูกต้องไปยังเว็บไซต์ของคุณหรือไม่ได้อัปเดตลิงก์ให้สอดคล้องกับการเปลี่ยนแปลงในเซิร์ฟเวอร์ Googlebot จะพยายามรวบรวมข้อมูลลิงก์ที่ไม่ถูกต้องจากเว็บไซต์ของคุณ

หากต้องการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลเนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าจะมีความแตกต่างระหว่างการป้องกันไม่ให้ Googlebot รวบรวมข้อมูลหน้าเว็บ การป้องกันไม่ให้ Googlebot จัดทำดัชนีหน้าเว็บ และการป้องกันไม่ให้ทั้งโปรแกรมรวบรวมข้อมูลและผู้ใช้เข้าถึงหน้าเว็บ

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าสตริง User Agent ที่ Googlebot ใช้นั้นมักจะถูกโปรแกรมรวบรวมข้อมูลอื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ

Googlebot และบอทของเครื่องมือค้นหาที่เชื่อถือได้ทั้งหมดจะคำนึงถึงคำสั่งใน robots.txt แต่ผู้มุ่งร้ายและนักส่งสแปมบางรายจะไม่คำนึงถึงคำสั่งเหล่านี้ Google ต่อต้านนักส่งสแปมอยู่เสมอ หากคุณสังเกตเห็นหน้าเว็บหรือเว็บไซต์ที่มีสแปมในผลการค้นหาของ Google Search คุณรายงานสแปมไปยัง Google ได้