คำถามที่พบบ่อยเกี่ยวกับโรบ็อต

คำถามทั่วไปเกี่ยวกับโรบ็อต

เว็บไซต์ของฉันต้องใช้ไฟล์ robots.txt ไหม

ไม่ เมื่อ Googlebot เข้าชมเว็บไซต์หนึ่ง เราจะขอสิทธิ์ในการรวบรวมข้อมูลโดยพยายามเรียกข้อมูลไฟล์ robots.txt ก่อน โดยทั่วไปจะมีการ Crawl และจัดทำดัชนีของเว็บไซต์ที่ไม่มีไฟล์ robots.txt, แท็ก meta ของ robots หรือส่วนหัว HTTP X-Robots-Tag ตามปกติ

ฉันควรใช้วิธีการใดเพื่อบล็อกโปรแกรมรวบรวมข้อมูล

แล้วแต่กรณี พูดง่ายๆ ก็คือแต่ละวิธีมีข้อดีต่างกัน

  • robots.txt: ใช้วิธีการนี้หากการรวบรวมข้อมูลเนื้อหาของคุณทำให้เกิดปัญหาในเซิร์ฟเวอร์ เช่น คุณอาจไม่ต้องการอนุญาตให้มีการรวบรวมข้อมูลสคริปต์ปฏิทินที่ไม่จำกัด อย่าใช้ robots.txt เพื่อบล็อกเนื้อหาส่วนตัว (ใช้การตรวจสอบสิทธิ์ฝั่งเซิร์ฟเวอร์แทน) หรือจัดการการกำหนดหน้า Canonical ให้ใช้แท็ก meta ของ robots หรือส่วนหัว HTTP ของ X-Robots-Tag แทน เพื่อให้แน่ใจว่าจะไม่มีการจัดทําดัชนี URL นั้นๆ
  • แท็ก meta ของ robots: ใช้วิธีการนี้หากคุณต้องการควบคุมการแสดงหน้า HTML แต่ละหน้าในผลการค้นหา หรือไม่ต้องการให้มีการแสดงหน้าดังกล่าวในผลการค้นหา
  • ส่วนหัว HTTP ของ X-Robots-Tag: ใช้วิธีการนี้หากคุณต้องการควบคุมการแสดงเนื้อหาในผลการค้นหา หรือไม่ต้องการให้มีการแสดงเนื้อหาดังกล่าวในผลการค้นหา

ฉันสามารถใช้ robots.txt, แท็ก meta ของ robots หรือส่วนหัว HTTP ของ X-Robots-Tag เพื่อนำเว็บไซต์ของผู้อื่นออกจากผลการค้นหาได้ไหม

ไม่ได้ วิธีการเหล่านี้ใช้ได้กับเว็บไซต์ที่คุณแก้ไขโค้ดหรือเพิ่มไฟล์ได้เท่านั้น ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีนําข้อมูลออกจาก Google

จะชะลอ Google จากการรวบรวมข้อมูลเว็บไซต์ของฉันได้อย่างไร

โดยทั่วไปคุณสามารถปรับเปลี่ยนการตั้งค่าอัตราการรวบรวมข้อมูลได้ในบัญชี Google Search Console

คำถามเกี่ยวกับ robots.txt

ฉันใช้ robots.txt ไฟล์เดียวสำหรับหลายเว็บไซต์ จะใช้ URL แบบเต็มแทนเส้นทางแบบสัมพัทธ์ได้ไหม

ไม่ได้ กฎในไฟล์ robots.txt (ยกเว้น sitemap:) จะใช้ได้เฉพาะกับเส้นทางแบบสัมพัทธ์เท่านั้น

ฉันจะวางไฟล์ robots.txt ในไดเรกทอรีย่อยได้ไหม

ไม่ได้ คุณต้องวางไฟล์ไว้ในไดเรกทอรีบนสุดของเว็บไซต์

ฉันต้องการบล็อกโฟลเดอร์ส่วนตัว จะป้องกันไม่ให้ผู้อื่นอ่านไฟล์ robots.txt ของฉันได้ไหม

ไม่ได้ ผู้ใช้จะอ่านไฟล์ robots.txt ได้ หากไม่ต้องการเผยแพร่โฟลเดอร์หรือชื่อไฟล์ของเนื้อหาสู่สาธารณะ ก็อย่าระบุเนื้อหาดังกล่าวในไฟล์ robots.txt เราไม่แนะนำให้แสดงไฟล์ robots.txt ต่างกันโดยอิงตาม User Agent หรือแอตทริบิวต์อื่นๆ

ฉันต้องใส่กฎ allow เพื่ออนุญาตให้มีการ Crawl ไหม

ไม่ คุณไม่จำเป็นต้องเพิ่มกฎ allow ระบบจะถือว่า URL ทั้งหมดได้รับอนุญาตและใช้กฎ allow เพื่อลบล้างกฎ disallow ในไฟล์ robots.txt เดียวกัน

จะเกิดอะไรขึ้นหากมีข้อผิดพลาดในไฟล์ robots.txt หรือฉันใช้กฎที่ไม่รองรับ

โดยทั่วไปโปรแกรมรวบรวมข้อมูลเว็บจะยืดหยุ่นมากและไม่ได้รับผลกระทบจากข้อผิดพลาดเล็กๆ น้อยๆ ในไฟล์ robots.txt ปัญหาใหญ่ที่สุดที่อาจเกิดขึ้นคือ Crawler จะไม่สนใจต่อกฎที่ไม่ถูกต้องหรือไม่รองรับ โปรดทราบว่า Google ไม่ทราบวัตถุประสงค์ที่แท้จริง และเพียงแต่ตีความไฟล์ robots.txt ตามที่ดึงข้อมูลมา ซึ่งโดยปกติแล้วคุณสามารถแก้ปัญหาเหล่านั้นได้ง่ายๆ หากพบปัญหาในไฟล์ robots.txt

ฉันควรใช้โปรแกรมอะไรเพื่อสร้างไฟล์ robots.txt

คุณจะใช้โปรแกรมอะไรก็ได้ที่สร้างไฟล์ข้อความที่ถูกต้องได้ โปรแกรมที่มักใช้ในการสร้างไฟล์ robots.txt ได้แก่ Notepad, TextEdit, vi หรือ emacs ดูข้อมูลเพิ่มเติมเกี่ยวกับการสร้างไฟล์ robots.txt หลังจากสร้างไฟล์แล้ว ให้ตรวจสอบความถูกต้องโดยใช้โปรแกรมทดสอบ robots.txt

หากฉันบล็อกไม่ให้ Google ทำการ Crawl หน้าเว็บโดยใช้กฎ disallow ใน robots.txt หน้าเว็บจะหายไปจากผลการค้นหาไหม

การบล็อก Google ไม่ให้ทำการ Crawl หน้าเว็บมีแนวโน้มที่จะทำให้หน้านั้นถูกลบออกจากดัชนีของ Google

อย่างไรก็ตาม คำสั่ง disallow ในไฟล์ robots.txt ไม่ได้รับประกันว่าหน้าเว็บจะไม่ปรากฏในผลการค้นหา เพราะ Google อาจยังใช้ข้อมูลภายนอก เช่น ลิงก์ขาเข้า ในการตัดสินว่าหน้าเว็บเกี่ยวข้องหรือไม่ และแสดง URL ในผลการค้นหา หากต้องการบล็อกไม่ให้มีการจัดทำดัชนีหน้าเว็บอย่างชัดแจ้ง ให้ใช้แท็ก meta noindex ของ robots หรือส่วนหัว HTTP X-Robots-Tag แทน ในกรณีนี้ คุณต้องอนุญาตหน้าเว็บในไฟล์ robots.txt เพราะต้องมีการรวบรวมหน้าเว็บเพื่อให้มองเห็นแท็กและทำตามคำสั่ง ดูวิธีควบคุมสิ่งที่คุณแชร์กับ Google

จะใช้เวลานานเท่าไรกว่าที่การเปลี่ยนแปลงในไฟล์ robots.txt จะส่งผลต่อผลการค้นหาของฉัน

ก่อนอื่น คุณต้องรีเฟรชแคชของไฟล์ robots.txt (โดยทั่วไปเราจะแคชเนื้อหาไว้ไม่เกิน 1 วัน) คุณเร่งกระบวนการนี้ให้เร็วขึ้นได้โดยส่ง robots.txt ที่มีการอัปเดตไปให้ Google แม้จะพบการเปลี่ยนแปลงแล้ว แต่การรวบรวมข้อมูลและการจัดทำดัชนีก็เป็นขั้นตอนที่ซับซ้อนซึ่งอาจต้องใช้เวลาพอสมควรสำหรับ URL แต่ละรายการ เราจึงไม่สามารถระบุลำดับเวลาที่แน่นอนได้ โปรดทราบด้วยว่า ถึงแม้ไฟล์ robots.txt จะไม่อนุญาตให้เข้าถึง URL หนึ่งๆ แต่ URL นั้นอาจยังปรากฏในผลการค้นหา แม้เราจะไม่สามารถรวบรวมข้อมูล หากต้องการเร่งให้ลบหน้าเว็บที่คุณบล็อกไม่ให้ Google เข้าถึง โปรดส่งคำขอให้นำออก

ฉันจะระงับการรวบรวมข้อมูลทั้งหมดของเว็บไซต์ของฉันชั่วคราวได้อย่างไร

คุณสามารถระงับการรวบรวมข้อมูลทั้งหมดชั่วคราวโดยแสดงรหัสสถานะ HTTP 503 (service unavailable) สำหรับ URL ทั้งหมด รวมถึงไฟล์ robots.txt จะมีการลองใช้ไฟล์ robots.txt อีกครั้งเป็นระยะๆ จนกว่าจะเข้าถึงได้อีกครั้ง เราไม่แนะนำให้เปลี่ยนแปลงไฟล์ robots.txt เพื่อระงับการรวบรวมข้อมูล

เซิร์ฟเวอร์ของฉันไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ฉันจะไม่อนุญาตให้ทำการ Crawl บางโฟลเดอร์เลยได้อย่างไร

กฎในไฟล์ robots.txt จะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ในกรณีนี้ ขอแนะนำให้ตรวจสอบว่ามีการจัดทำดัชนี URL เพียงเวอร์ชันเดียวโดยใช้วิธีการกำหนดหน้า Canonical การดำเนินการนี้จะทำให้มีบรรทัดน้อยลงในไฟล์ robots.txt ซึ่งจะช่วยให้คุณจัดการไฟล์ได้ง่ายขึ้น หากทำไม่ได้ เราขอแนะนำให้คุณระบุอักขระผสมที่ใช้บ่อยจากชื่อโฟลเดอร์ หรือย่อชื่อให้สั้นที่สุดเท่าที่จะทำได้ โดยใช้อักขระแรกเพียงไม่กี่ตัว แทนที่จะใช้ชื่อเต็ม เช่น แทนที่จะระบุอักขระตัวพิมพ์เล็กและใหญ่ที่ผสมกันในแบบต่างๆ ครบทุกอักขระสำหรับ /MyPrivateFolder คุณอาจระบุอักขระตัวพิมพ์เล็กและใหญ่ที่ผสมกันเพียงไม่กี่ตัวอย่างเช่น /MyP (หากมั่นใจว่าไม่มี URL ที่รวบรวมข้อมูลได้อื่นๆ ที่ขึ้นต้นด้วยอักขระดังกล่าว) หรืออาจใช้แท็ก meta ของ robots หรือส่วนหัว HTTP X-Robots-Tag แทนก็ได้หากไม่กังวลเรื่องการ Crawl

ฉันแสดงผล 403 Forbidden สําหรับ URL ทั้งหมด รวมถึงไฟล์ robots.txt เหตุใดจึงยังมีการรวบรวมข้อมูลเว็บไซต์อยู่

รหัสสถานะ HTTP 403 Forbidden และรหัสสถานะ HTTP 4xx อื่นๆ จะถูกตีความว่าไม่มีไฟล์ robots.txt ซึ่งหมายความว่า โดยทั่วไปโปรแกรมรวบรวมข้อมูลจะถือว่าสามารถรวบรวมข้อมูล URL ทั้งหมดในเว็บไซต์ได้ หากต้องการบล็อกการรวบรวมข้อมูลเว็บไซต์ ไฟล์ robots.txt ต้องแสดงผลรหัสสถานะ HTTP 200 OK และต้องมีกฎ disallow ที่เหมาะสม

คําถามเกี่ยวกับแท็ก meta ของ robots

แท็ก meta ของ robots ใช้แทนที่ไฟล์ robots.txt ใช่ไหม

ไม่ใช่ ไฟล์ robots.txt จะควบคุมว่าสามารถเข้าถึงหน้าใดได้บ้าง ส่วนแท็ก meta ของ robots จะควบคุมว่าจะให้จัดทําดัชนีหน้าเว็บหรือไม่ แต่ต้องให้มีการ Crawl หน้าเว็บก่อน ระบบจึงจะเห็นแท็กนี้ หากการรวบรวมข้อมูลหน้าเว็บมีปัญหา (เช่น หากหน้าเว็บทำให้เซิร์ฟเวอร์มีภาระงานสูง) ให้ใช้ไฟล์ robots.txt หากต้องการทราบแค่ว่าหน้าเว็บจะแสดงในผลการค้นหาหรือไม่ คุณก็ใช้แท็ก meta ของ robots ได้

ฉันจะใช้แท็ก meta ของ robots เพื่อบล็อกส่วนหนึ่งของหน้าเว็บไม่ให้มีการจัดทําดัชนีได้ไหม

ไม่ได้ แท็ก meta ของ robots เป็นการตั้งค่าระดับหน้าเว็บ

ฉันจะใช้แท็ก meta ของ robots นอกส่วน <head> ได้ไหม

ไม่ได้ แท็ก meta ของ robots ต้องอยู่ในส่วน <head> ของหน้าเว็บ

แท็ก meta ของ robots ไม่อนุญาตให้ทำการ Crawl ใช่ไหม

ไม่ใช่ แม้ว่าในขณะนั้นๆ แท็ก meta ของ robots จะระบุว่า noindex แต่เราจะต้องทำการ Crawl URL นั้นอีกเป็นระยะๆ เพื่อดูว่าแท็ก meta มีการเปลี่ยนแปลงหรือไม่

แท็ก meta nofollow ของ robots เป็นอย่างไรเมื่อเปรียบเทียบกับแอตทริบิวต์ลิงก์ rel="nofollow"

แท็ก meta nofollow ของ robots ใช้กับลิงก์ทั้งหมดในหน้าเว็บ ส่วนแอตทริบิวต์ลิงก์ rel="nofollow" มีผลกับเฉพาะบางลิงก์ในหน้าเว็บ ดูข้อมูลเพิ่มเติมเกี่ยวกับแอตทริบิวต์ลิงก์ rel="nofollow" ได้จากเอกสารประกอบเรื่องสแปมที่ผู้ใช้สร้างขึ้นและ rel="nofollow"

คำถามเกี่ยวกับส่วนหัว HTTP ของ X-Robots-Tag

ฉันจะตรวจสอบ X-Robots-Tag ของ URL ได้อย่างไร

วิธีง่ายๆ ในการดูส่วนหัวของเซิร์ฟเวอร์คือใช้ฟีเจอร์เครื่องมือตรวจสอบ URL ใน Google Search Console หากต้องการตรวจสอบส่วนหัวการตอบกลับของ URL หนึ่ง ให้ลองค้นหา "เครื่องมือตรวจสอบส่วนหัวของเซิร์ฟเวอร์"