ทบทวนความรู้เรื่อง Robots: โปรโตคอลการยกเว้นสำหรับโรบ็อตที่พร้อมรับมือกับอนาคต

วันศุกร์ที่ 28 มีนาคม 2025

ในโพสต์ก่อนหน้าเกี่ยวกับโปรโตคอลการยกเว้นสำหรับโรบ็อต (Robots Exclusion Protocol หรือ REP) เราได้สำรวจสิ่งที่คุณทําได้กับคอมโพเนนต์ต่างๆ ของ REP ซึ่งได้แก่ robots.txt และการควบคุมระดับ URI ในโพสต์นี้ เราจะสำรวจว่า REP สามารถรองรับความสัมพันธ์ที่เปลี่ยนแปลงอยู่ตลอดเวลาระหว่างไคลเอ็นต์อัตโนมัติกับเว็บของมนุษย์ได้อย่างไร

REP โดยเฉพาะ robots.txt ได้กลายเป็นมาตรฐานในปี 2022 ในฐานะ RFC9309 อย่างไรก็ตาม การทำงานหนักได้เกิดขึ้นแล้วก่อนที่จะมีการทำให้เป็นมาตรฐาน นั่นคือการทดสอบตามกาลเวลาระหว่างปี 1994 ถึง 2022 ซึ่งทำให้ได้รับความนิยมมากพอที่โฮสต์หลายพันล้านรายและผู้ให้บริการ Crawler รายใหญ่เกือบทั้งหมด (ยกเว้น Crawler ที่เป็นภัย เช่น โปรแกรมสแกนมัลแวร์) นำมาใช้ นี่เป็นโซลูชันที่ตรงไปตรงมาและมีประสิทธิภาพในการระบุค่ากําหนดด้วยไวยากรณ์ที่เรียบง่ายแต่ใช้งานได้หลากหลาย ตลอด 25 ปีที่ผ่านมา แทบจะไม่ต้องพัฒนาจากรูปแบบเดิมเลย มีเพียงกฎ allow กฎเดียวหากพิจารณาเฉพาะกฎที่ Crawler รองรับอย่างกว้างขวาง

แต่ก็ไม่ได้หมายความว่าจะไม่มีกฎอื่นๆ ผู้ให้บริการ Crawler แต่ละรายสามารถสร้างกฎของตนเองได้ เช่น กฎอย่าง "clean-param" และ "crawl-delay" ไม่ได้อยู่ใน RFC9309 แต่เครื่องมือค้นหาบางรายการรองรับกฎเหล่านี้ แต่ Google Search ไม่รองรับ เครื่องมือค้นหาหลักทั้งหมดรองรับกฎ "sitemap" ซึ่งไม่ได้อยู่ใน RFC9309 หากได้รับการสนับสนุนมากพอ กฎดังกล่าวอาจกลายเป็นกฎอย่างเป็นทางการใน REP

เนื่องจากตัวแทนจำหน่ายสามารถรับ "ข้อมูลอัปเดต" ได้ ซึ่งเป็นโปรโตคอลที่รองรับอย่างกว้างขวาง และควรเติบโตไปพร้อมกับอินเทอร์เน็ต การเปลี่ยนแปลง REP ไม่ใช่เรื่องที่เป็นไปไม่ได้ แต่ก็ไม่ใช่เรื่องง่าย และไม่ควรง่ายด้วยเนื่องจาก REP ได้รับการสนับสนุนอย่างกว้างขวาง เช่นเดียวกับการเปลี่ยนแปลงมาตรฐานอื่นๆ จะต้องมีความเห็นพ้องกันว่าการเปลี่ยนแปลงจะเป็นประโยชน์ต่อผู้ใช้โปรโตคอลส่วนใหญ่ ทั้งฝั่งผู้เผยแพร่โฆษณาและฝั่งผู้ดำเนินการ Crawler

เนื่องจากความเรียบง่ายและการนำไปใช้งานอย่างแพร่หลาย REP จึงเหมาะอย่างยิ่งที่จะใช้ใส่ค่ากำหนดการ Crawl ใหม่ๆ ตัวอย่างเช่น ผู้เผยแพร่โฆษณาหลายพันล้านรายคุ้นเคยกับ robots.txt และไวยากรณ์ของไฟล์อยู่แล้ว ดังนั้นการเปลี่ยนแปลงจึงทำได้ง่ายขึ้น ในทางกลับกัน ผู้ให้บริการ Crawler มีโปรแกรมแยกวิเคราะห์และโปรแกรมจับคู่ที่มีประสิทธิภาพและผ่านการทดสอบมาอย่างดีอยู่แล้ว (และ Google ยังเปิดแหล่งที่มาของโปรแกรมแยกวิเคราะห์ robots.txt ของตัวเองด้วย) ซึ่งหมายความว่ามีความเป็นไปได้สูงที่จะไม่มีปัญหาในการแยกวิเคราะห์กับกฎใหม่

เช่นเดียวกับส่วนขยายระดับ URI ของ REP, ส่วนหัว HTTP ของ X-robots-tag และเมตาแท็กที่เทียบเท่า หากจําเป็นต้องใช้กฎใหม่เพื่อใช้ค่ากําหนดในการเลือกไม่ใช้ กฎเหล่านี้จะขยายได้ง่าย แต่จะทำอย่างไรล่ะ

สิ่งสำคัญที่สุดที่คุณในฐานะผู้อ่านทำได้คือพูดคุยเกี่ยวกับไอเดียของคุณกับคนอื่นๆ อย่างเปิดเผย และรวบรวมผู้สนับสนุนไอเดียนั้น เนื่องจาก REP เป็นมาตรฐานสาธารณะ จึงไม่มีผู้ใดเปลี่ยนแปลงมาตรฐานดังกล่าวฝ่ายเดียวได้ แน่นอนว่าผู้เข้าร่วมสามารถรองรับสิ่งใหม่ๆ ฝั่งตนเองได้ แต่สิ่งเหล่านั้นจะไม่กลายเป็นมาตรฐาน แต่การพูดคุยเกี่ยวกับการเปลี่ยนแปลงดังกล่าวและแสดงให้เห็นว่าการเปลี่ยนแปลงนั้นจะเป็นประโยชน์ต่อทุกคนทั้งผู้ดำเนินการ Crawler และระบบนิเวศการเผยแพร่จะทำให้เกิดความเห็นพ้องต้องกัน และปูทางไปสู่การอัปเดตมาตรฐาน

ในทำนองเดียวกัน หากโปรโตคอลขาดสิ่งใด ให้พูดถึงเรื่องนี้แบบสาธารณะ sitemap กลายเป็นกฎที่ได้รับการรองรับอย่างกว้างขวางใน robots.txt เนื่องจากมีประโยชน์สำหรับทั้งครีเอเตอร์เนื้อหาและเครื่องมือค้นหา ซึ่งปูทางให้เกิดการนำส่วนขยายนี้ไปใช้ หากคุณมีแนวคิดใหม่สำหรับกฎ ให้ถามผู้ใช้ robots.txt และผู้สร้างว่าคิดเห็นอย่างไรเกี่ยวกับแนวคิดดังกล่าว แล้วทำงานร่วมกับพวกเขาเพื่อหาทางแก้ปัญหาที่อาจเกิดขึ้น (และน่าจะเกิดขึ้น) และเขียนข้อเสนอ

หากไดรเวอร์ของคุณมีไว้เพื่อประโยชน์ส่วนรวม ก็ถือว่าคุ้มค่า

โพสต์โดย Gary Illyes จากทีม Search

ดูซีรีส์ "ทบทวนความรู้เรื่อง Robots" ที่เหลือได้ที่: