สิ่งที่ควรทราบเกี่ยวกับการ Crawl เว็บของ Google
Google ทำการ Crawl เว็บแบบเปิดมานานกว่า 30 ปีแล้ว และเรามักจะได้รับคำถามเกี่ยวกับวิธีการทำงานของโปรแกรม Crawl เว็บอยู่เป็นประจำ เราจึงขอตอบคำถามบางส่วนด้วยข้อเท็จจริงเกี่ยวกับ Crawler ของ Google และวิธีที่ Crawler ช่วยเราจัดระเบียบข้อมูลต่างๆ ในโลก รวมถึงเชื่อมโยงผู้คนกับเนื้อหาจากทั่วทั้งเว็บ
การ Crawl คืออะไร กล่าวโดยสรุป การ Crawl คือการที่ Google "มองเห็น" เว็บอย่างไร
การ Crawl คือกระบวนการใช้ซอฟต์แวร์อัตโนมัติเพื่อค้นหาหน้าเว็บใหม่และทำความเข้าใจหน้าเว็บเหล่านั้น ด้วยวิธีนี้ เมื่อคุณมาที่ Google เพื่อค้นหาหน้าเว็บ เราจะทราบว่าหน้าเว็บนั้นมีอยู่จริงและสามารถรวมหน้าเว็บนั้นไว้ในผลการค้นหาของคุณได้ เครื่องมือค้นหาทั้งหมดอาศัยการ Crawl เพื่อให้ทราบว่ามีหน้าเว็บและข้อมูลใดบ้าง คุณสามารถดูข้อมูลเพิ่มเติมได้ในวิดีโอเกี่ยวกับวิธีที่ Google Search ทำการ Crawl หน้าเว็บ
เรามี Crawler จำนวนมาก ซึ่งแต่ละตัวก็มีหน้าที่สำคัญ
Googlebot เป็น Crawler ที่เป็นที่รู้จักมากที่สุดของเรา และใช้เพื่อทำให้ผลการค้นหาใน Google Search มีความสดใหม่และเป็นข้อมูลล่าสุด นอกจากนี้ เรายังมี Crawler ที่เฉพาะเจาะจงสำหรับแพลตฟอร์มอื่นๆ เช่น Google รูปภาพและ Google Shopping เรามีเอกสารประกอบฉบับเต็มของ Crawler ที่ใช้บ่อยที่สุดและวัตถุประสงค์ของ Crawler เหล่านั้น Crawler ของเราใช้ชื่อ User-Agent ที่ระบุได้ง่ายและที่อยู่อินเทอร์เน็ตที่รู้จัก วิธีนี้จะช่วยให้เจ้าของเว็บไซต์มั่นใจได้ว่า Crawler ของ Google ที่เห็นนั้นเป็นของจริง
เราทำการ Crawl ซ้ำๆ เพื่อค้นหาข้อมูลอัปเดตล่าสุดและแสดงผลการค้นหาที่ใหม่ที่สุด
เราอาจทำการ Crawl หน้าแรกของข่าวทุก 2-3 นาทีเพื่อค้นหาบทความข่าวด่วน ในกรณีอื่นๆ เราอาจเห็นว่าไม่มีการเปลี่ยนแปลงมาหลายปีแล้ว จึงอาจรอ 1 เดือนเพื่อทำการ Crawl อีกครั้ง เจ้าของเว็บไซต์สามารถกำหนดความถี่ในการ Crawl อีกครั้งได้โดยใช้ไฟล์ Sitemap ที่บอกให้เรารู้เกี่ยวกับหน้าเว็บใหม่และหน้าเว็บที่อัปเดต
การ Crawl บ่อยๆ เป็นสัญญาณที่ดี
หากเราทำการ Crawl เว็บไซต์ของคุณบ่อยๆ แสดงว่าหน้าเว็บของคุณมีเนื้อหาใหม่หรือมีความเกี่ยวข้องสูง ซึ่งเป็นเนื้อหาที่ผู้คนต้องการค้นหา และระบบของเราก็รับรู้ถึงความต้องการดังกล่าว การช็อปปิ้งออนไลน์เป็นตัวอย่างที่ดี เราทำการ Crawl เว็บไซต์อีคอมเมิร์ซบ่อยๆ เพื่อให้ผลการค้นหาแสดงราคา โปรโมชัน และสถานะสินค้าคงคลังล่าสุดของผู้ค้าปลีก
การ Crawl ของ Google เพิ่มขึ้นเมื่อเวลาผ่านไปเนื่องจากหน้าเว็บมีความซับซ้อนมากขึ้น
อีกเหตุผลหนึ่งที่เราทำการ Crawl อีกครั้งบ่อยๆ ก็คือเพื่อทำความเข้าใจอย่างถ่องแท้ถึงความสมบูรณ์ของหน้าเว็บและสิ่งที่หน้าเว็บนั้นนำเสนอ Crawler ของเราใช้เทคนิคที่เรียกว่าการแสดงผล ซึ่งจะโหลดเว็บไซต์ทั้งหมดเพื่อ "ดู" หน้าเว็บเหมือนที่คนจริงๆ ทำ ในช่วงหลายปีที่ผ่านมา หน้าเว็บมีความซับซ้อนมากขึ้น หน้าสำหรับมือถือโดยเฉลี่ยมีขนาดเพิ่มขึ้นจาก 816 กิโลไบต์เป็น 2.3 เมกะไบต์ และปัจจุบันมีไฟล์ต่างๆ มากกว่า 60 ไฟล์ที่ต้องโหลด ตั้งแต่รูปภาพไปจนถึงคอมโพเนนต์แบบอินเทอร์แอกทีฟ ดังนั้น หากต้องการภาพรวมที่แสดงถึงหน้าเว็บอย่างครบถ้วนสมบูรณ์ เราอาจต้องทำการ Crawl หน้าเว็บเดียวกันหลายครั้ง หรือมากกว่านั้น เนื่องจากมีการเพิ่มองค์ประกอบใหม่ๆอยู่ตลอดเวลา
เราเพิ่มประสิทธิภาพการ Crawl โดยอัตโนมัติ
Crawler ของเราได้รับการออกแบบมาเพื่อประสิทธิภาพ และจะปรับตัวเองเพื่อลดผลกระทบต่อเจ้าของเว็บไซต์ ตัวอย่างเช่น เมื่อเว็บไซต์ทำงานช้าลงหรือแสดงข้อผิดพลาด อัตราการ Crawl จะเปลี่ยนโดยอัตโนมัติเพื่อไม่ให้เซิร์ฟเวอร์ของเว็บไซต์ทำงานหนักเกินไป เราพยายามจำกัดการ Crawl ที่สิ้นเปลืองด้วยการแคชเนื้อหาที่ Crawl และเมื่อ Crawler ค้นพบเว็บไซต์มากขึ้น ก็จะสามารถจดจำส่วนต่างๆ ที่ทำการ Crawl น้อยลงได้ เช่น ปฏิทินที่ไปถึงปี 9999 อาจไม่จำเป็นต้องทำการ Crawl ทั้งหมด เจ้าของเว็บไซต์สามารถช่วยได้โดยการระบุเนื้อหาที่ไม่จำเป็นต้องทำการ Crawl ซึ่งจะช่วยให้เว็บไซต์ประหยัดเงินได้ด้วยการลดต้นทุนด้านโครงสร้างพื้นฐาน และทำให้อินเทอร์เน็ตมีประสิทธิภาพมากขึ้นโดยรวม
Crawler ของ Google จะไม่เข้าไปยังเนื้อหาที่ต้องสมัครใช้บริการหรือเนื้อหาที่อยู่หลังเพย์วอลล์โดยไม่ได้รับอนุญาต
โดยค่าเริ่มต้น หากเข้าถึงหน้าเว็บในเว็บแบบเปิดไม่ได้ เช่น หากเนื้อหาอยู่หลังหน้าเข้าสู่ระบบ Crawler ของเราก็จะเข้าถึงไม่ได้เช่นกัน เรามีคำแนะนำสำหรับเจ้าของเว็บไซต์โดยเฉพาะในกรณีที่ต้องการให้สิทธิ์แก่ Google อย่างชัดแจ้งในการเข้าถึงหน้าการสมัครรับข้อมูล (เช่น เพื่อให้ Google สามารถแนะนำผู้ใช้ไปยังเนื้อหานั้นได้) หากเลือกให้สิทธิ์เข้าถึงการสมัครใช้บริการแก่ Crawler ของเรา คุณสามารถใช้ Structured Data เพื่อแสดงหน้าจอเข้าสู่ระบบแก่ผู้เข้าชมที่เป็นมนุษย์ต่อไปได้โดยไม่ทำให้กฎเกี่ยวกับสแปมของเราทำงาน และคุณยังป้องกันไม่ให้เนื้อหาที่ต้องสมัครใช้บริการปรากฏในตัวอย่างหน้าเว็บได้โดยใช้การควบคุมตัวอย่าง
เจ้าของเว็บไซต์สามารถควบคุมสิ่งที่จะทำการ Crawl และวิธีทำการ Crawl ได้
เราปฏิบัติตามมาตรฐานเว็บแบบเปิด เช่น robots.txt ซึ่งเป็นไฟล์ข้อความธรรมดาที่ช่วยให้เจ้าของเว็บไซต์ประกาศวิธีที่ Crawler อย่างของเราควรโต้ตอบกับหน้าเว็บของตน Robots.txt พร้อมด้วยเมตาแท็ก robots ช่วยให้เว็บไซต์สื่อสารกับ Google และบริการอื่นๆ ได้อย่างง่ายดายว่าจะเข้าถึงเนื้อหาของตนอย่างไร โดยสามารถบล็อกไม่ให้หน้าเว็บปรากฏใน Search ได้ รวมถึงสามารถบอกให้เรารู้เกี่ยวกับเนื้อหาใหม่ที่ต้องการให้ทำการ Crawl โดยใช้ Sitemap นอกจากนี้ยังจัดการได้ด้วยว่าต้องการให้เราทำการ Crawl เว็บไซต์ผ่าน Crawl Budget บ่อยแค่ไหน
Crawler มาตรฐานของเราจะเคารพตัวเลือกของเว็บไซต์เสมอเกี่ยวกับวิธีเข้าถึงและใช้เนื้อหา
หลังจากการ Crawl เราอาจใช้ข้อมูลที่ Crawl ไว้หลายครั้งเพื่อลดความจำเป็นในการส่งคำขอซ้ำๆ ที่สิ้นเปลืองในเว็บไซต์ แม้ว่าเราจะนำข้อมูลนี้กลับมาใช้ใหม่ แต่เราจะยังคงเคารพตัวเลือกที่เว็บไซต์เลือกผ่าน robots.txt และการควบคุมที่เราเสนอผ่านโปรโตคอลเว็บแบบเปิดนั้น ตัวอย่างเช่น เว็บไซต์สามารถใช้ Google-Extended ใน robots.txt เพื่อควบคุมได้ว่าเนื้อหาของตนจะช่วยฝึกโมเดล Gemini เวอร์ชันในอนาคตหรือไม่ การใช้ Google-Extended ไม่ส่งผลต่อการรวมเว็บไซต์ใน Search และเราไม่ได้ใช้ Google-Extended เป็นสัญญาณการจัดอันดับใน Search
เรามีเครื่องมือมากมายให้เจ้าของเว็บไซต์ใช้จัดการประสบการณ์การ Crawl ของ Google ซึ่งรวมถึง Google Search Console ที่เจ้าของเว็บไซต์สามารถใช้ได้โดยไม่มีค่าใช้จ่าย โดยจะให้ข้อมูลเกี่ยวกับปริมาณการ Crawl และเหตุผล นอกจากนี้ ยังช่วยให้เว็บไซต์วินิจฉัยปัญหาต่างๆ เช่น เซิร์ฟเวอร์ไม่ทำงานหรือปัญหาด้านความเร็วได้ด้วย นอกจากนี้ Search Console ยังให้ข้อมูลที่ครอบคลุมเกี่ยวกับวิธีที่หน้าเว็บของเว็บไซต์ปรากฏใน Search และวิธีที่ผู้ใช้มีส่วนร่วมกับหน้าเว็บเหล่านั้น
Crawler ของเราช่วยเชื่อมต่อผู้คนกับเว็บไซต์ที่ดีที่สุด และเรามองหาวิธีที่จะทำให้ Crawler มีประสิทธิภาพมากขึ้นอยู่เสมอ