ข้อมูลเบื้องต้นเกี่ยวกับ robots.txt

ไฟล์ robots.txt จะบอกโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาว่า URL ใดในเว็บไซต์ที่โปรแกรมเข้ารวบรวมข้อมูลได้ ซึ่งโดยหลักจะใช้เพื่อหลีกเลี่ยงไม่ให้มีการขอรวบรวมข้อมูลเว็บไซต์มากเกินไป แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google ให้บล็อกการจัดทำดัชนีด้วย noindex หรือป้องกันหน้าเว็บด้วยรหัสผ่าน

ไฟล์ robots.txt ใช้ทําอะไร

ไฟล์ robots.txt ใช้เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลในเว็บไซต์เป็นหลัก และโดยปกติจะใช้เพื่อกันไฟล์ออกจาก Google ทั้งนี้ขึ้นอยู่กับประเภทของไฟล์ ดังนี้

robots.txt มีผลกับไฟล์ประเภทต่างๆ
หน้าเว็บ

คุณสามารถใช้ไฟล์ robots.txt สําหรับหน้าเว็บ (HTML, PDF หรือรูปแบบที่ไม่ใช่สื่อรูปแบบอื่นๆ ที่ Google อ่านได้) เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลได้หากคิดว่าโปรแกรมรวบรวมข้อมูลของ Google จะร้องขอเซิร์ฟเวอร์มากเกินไป หรือเพื่อหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่สำคัญหรือในหน้าเว็บที่คล้ายกันของเว็บไซต์

หากบล็อกหน้าเว็บด้วยไฟล์ robots.txt URL ของหน้าจะยังคงปรากฏในผลการค้นหาได้ แต่ผลการค้นหาจะไม่มีคำอธิบาย ไฟล์ภาพ, ไฟล์วิดีโอ, PDF และไฟล์อื่นๆ ที่ไม่ใช่ HTML จะถูกตัดออก หากเห็นหน้าเว็บของคุณในผลการค้นหาลักษณะนี้และต้องการแก้ไข ให้ลบรายการ robots.txt ที่บล็อกหน้าดังกล่าว หากต้องการซ่อนหน้าเว็บจากการค้นหาไปเลย ให้ใช้วิธีการอื่น

ไฟล์สื่อ

ใช้ไฟล์ robots.txt เพื่อจัดการการเข้ารวบรวมข้อมูล และป้องกันไม่ให้ไฟล์ภาพ วิดีโอ และเสียงปรากฏในผลการค้นหาของ Google การทำเช่นนี้ไม่ได้ป้องกันไม่ให้หน้าเว็บหรือผู้ใช้อื่นๆ ลิงก์ไปยังไฟล์ภาพ/วิดีโอ/เสียงนั้นๆ

ไฟล์ทรัพยากร คุณสามารถใช้ไฟล์ robots.txt บล็อกไฟล์ทรัพยากรต่างๆ ได้ เช่น รูปภาพที่ไม่สำคัญ สคริปต์ หรือไฟล์รูปแบบ หากคิดว่าหน้าที่โหลดโดยไม่มีทรัพยากรเหล่านี้จะไม่ได้รับผลกระทบอย่างชัดเจนจากการขาดไฟล์ดังกล่าว อย่างไรก็ตาม หากไม่มีทรัพยากรเหล่านี้แล้วทำให้โปรแกรมรวบรวมข้อมูลของ Google เข้าใจหน้าเว็บได้ยากขึ้น ก็อย่าบล็อกทรัพยากรเหล่านี้ เพราะจะทำให้ Google วิเคราะห์หน้าเว็บที่ต้องอาศัยทรัพยากรเหล่านั้นได้ไม่ดีเท่าที่ควร

ทําความเข้าใจเรื่องข้อจํากัดของไฟล์ robots.txt

ก่อนที่จะสร้างหรือแก้ไขไฟล์ robots.txt คุณควรรู้ถึงข้อจำกัดของการบล็อก URL ด้วยวิธีนี้ และอาจใช้กลไกอื่นๆ เพื่อให้แน่ใจว่า URL ของคุณจะค้นไม่เจอในเว็บ ทั้งนี้ขึ้นอยู่กับเป้าหมายและสถานการณ์ของคุณ

  • เครื่องมือค้นหาบางรายการอาจไม่รองรับคำสั่ง robots.txt
    คำสั่งในไฟล์ robots.txt ไม่อาจบังคับให้โปรแกรมรวบรวมข้อมูลทำงานกับเว็บไซต์ของคุณตามต้องการ เพราะการทำตามคำสั่งจะขึ้นอยู่กับโปรแกรมรวบรวมข้อมูลนั้นเอง แม้ว่า Googlebot และโปรแกรมรวบรวมข้อมูลเว็บที่เชื่อถือได้อื่นๆ จะทำตามคำสั่งในไฟล์ robots.txt แต่โปรแกรมรวบรวมข้อมูลอื่นๆ อาจไม่ทำตามก็ได้ ดังนั้น ถ้าต้องการเก็บข้อมูลให้ปลอดภัยจากโปรแกรมรวบรวมข้อมูลเว็บ ขอแนะนำให้ใช้วิธีบล็อกอื่นๆ เช่น การปกป้องไฟล์ส่วนตัวในเซิร์ฟเวอร์ของคุณด้วยรหัสผ่าน
  • โปรแกรมรวบรวมข้อมูลที่แตกต่างกันจะตีความไวยากรณ์ต่างกัน
    แม้ว่าโปรแกรมรวบรวมข้อมูลเว็บที่เชื่อถือได้จะทำตามคำสั่งในไฟล์ robots.txt แต่โปรแกรมรวบรวมข้อมูลแต่ละโปรแกรมอาจตีความคำสั่งแตกต่างกันได้ คุณควรทราบถึงไวยากรณ์ที่เหมาะสมเพื่อจัดการกับโปรแกรมรวบรวมข้อมูลเว็บแบบต่างๆ เนื่องจากบางโปรแกรมอาจไม่เข้าใจบางคำสั่ง
  • หน้าที่ไม่ได้รับอนุญาตในไฟล์ robots.txt จะยังจัดทําดัชนีได้หากลิงก์มาจากเว็บไซต์อื่น
    แม้ว่า Google จะไม่รวบรวมข้อมูลหรือจัดทำดัชนีเนื้อหาที่ robots.txt บล็อกไว้ แต่เราก็อาจยังพบและจัดทำดัชนี URL ที่ไม่อนุญาตได้หากลิงก์มาจากที่อื่นๆ ในเว็บ ดังนั้น ที่อยู่ URL และอาจรวมถึงข้อมูลอื่นๆ ที่เผยแพร่ต่อสาธารณะ เช่น anchor text ในลิงก์ที่เชื่อมโยงไปยังหน้าอาจยังคงปรากฏในผลการค้นหาของ Google วิธีป้องกันที่ถูกต้องเพื่อไม่ให้ URL ปรากฏในผลการค้นหาของ Google คือการตั้งรหัสผ่านป้องกันไฟล์ในเซิร์ฟเวอร์ของคุณ ใช้เมตาแท็ก noindex หรือส่วนหัวการตอบกลับ หรือนำหน้าดังกล่าวออกไปเลย

สร้างไฟล์ robots.txt

โปรดดูวิธีสร้างไฟล์ robots.txt หากคุณคิดว่าจำเป็นต้องใช้