การยืนยัน Googlebot และโปรแกรมรวบรวมข้อมูลอื่นๆ ของ Google

คุณยืนยันได้ว่า Crawler ที่เข้าถึงเซิร์ฟเวอร์ของคุณคือ Crawler ของ Google จริง เช่น Googlebot วิธีนี้มีประโยชน์หากกังวลว่านักส่งสแปมหรือผู้ไม่ประสงค์ดีอื่นๆ กำลังเข้าถึงเว็บไซต์ของคุณโดยอ้างตัวเป็น Googlebot

Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้

ประเภท คำอธิบาย มาสก์ DNS แบบย้อนกลับ ช่วง IP
Googlebot Crawler หลักสําหรับผลิตภัณฑ์การค้นหาของ Google ทำตามกฎของ robots.txt เสมอ crawl-***-***-***-***.googlebot.com หรือ geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Crawler กรณีพิเศษ Crawler ที่ใช้ฟังก์ชันเฉพาะ (เช่น AdsBot) ซึ่งอาจทำตามหรือไม่ทำตามกฎของ robots.txt rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ เครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ ตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ***-***-***-***.gae.googleusercontent.com user-triggered-fetchers.json

การยืนยัน Crawler ของ Google ทําได้ 2 วิธี ดังนี้

  • ทำด้วยตนเอง: สําหรับการค้นหาแบบครั้งเดียว ให้ใช้เครื่องมือบรรทัดคําสั่ง โดยวิธีนี้เพียงพอแล้วสําหรับกรณีใช้งานส่วนใหญ่
  • ทำโดยอัตโนมัติ: สําหรับการค้นหาขนาดใหญ่ ให้ใช้โซลูชันอัตโนมัติเพื่อจับคู่ที่อยู่ IP ของ Crawler กับรายการที่อยู่ IP ของ Googlebot ที่เผยแพร่

ใช้เครื่องมือบรรทัดคำสั่ง

  1. เรียกใช้การค้นหา DNS แบบย้อนกลับกับที่อยู่ IP ที่เข้าถึงจากบันทึกของคุณโดยใช้คำสั่ง host
  2. ยืนยันว่าชื่อโดเมนเป็น googlebot.com, google.com, หรือ googleusercontent.com
  3. เรียกใช้การค้นหา DNS แบบส่งต่อกับชื่อโดเมนที่ได้รับในขั้นตอนที่ 1 โดยใช้คำสั่ง host กับชื่อโดเมนที่ได้รับนั้น
  4. จากนั้นตรวจดูว่าชื่อโดเมนที่ได้นั้นเป็นที่อยู่ IP เดิมที่เข้าถึงจากบันทึกของคุณ

ตัวอย่างที่ 1

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

ตัวอย่างที่ 2

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

ตัวอย่างที่ 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

ใช้โซลูชันอัตโนมัติ

หรือจะระบุ Googlebot ตามที่อยู่ IP ก็ได้ โดยจับคู่ที่อยู่ IP ของ Crawler กับรายการช่วง IP ของ Crawler และตัวดึงข้อมูลของ Google ดังนี้

สําหรับที่อยู่ IP ของ Google อื่นๆ จากจุดที่อาจมีการเข้าถึงเว็บไซต์ของคุณ (เช่น Apps Script) ให้จับคู่ที่อยู่ IP ที่เข้าถึงกับรายการที่อยู่ IP ของ Google โปรดทราบว่าที่อยู่ IP ในไฟล์ JSON จะแสดงในรูปแบบ CIDR