คู่มือการจัดการ Crawl Budget สำหรับเจ้าของเว็บไซต์ขนาดใหญ่
คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง
หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว
การมีเนื้อหาที่พร้อมใช้งานมาระยะหนึ่งแต่ยังไม่ได้รับการจัดทําดัชนีถือเป็นคนละปัญหากัน ให้ใช้เครื่องมือตรวจสอบ URL แทนเพื่อดูสาเหตุที่หน้าเว็บไม่ได้รับการจัดทําดัชนี
คู่มือนี้มีไว้สำหรับใคร
นี่เป็นคู่มือขั้นสูงที่มีไว้สำหรับ
- เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
- เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
- เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี
ทฤษฎีทั่วไปของการรวบรวมข้อมูล
อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Googlebot จะใช้ในการรวบรวมข้อมูลเว็บไซต์หนึ่งๆ จึงมีจำกัด โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการรวบรวมข้อมูลเว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ โปรดทราบว่าเนื้อหาบางอย่างที่ได้รับการรวบรวมข้อมูลในเว็บไซต์อาจไม่ได้รับการจัดทำดัชนีเสมอไป เนื่องจาก Googlebot ต้องประเมินและรวมแต่ละหน้าเพื่อตัดสินว่าจะได้รับการจัดทำดัชนีหลังจากที่มีการรวบรวมข้อมูลหรือไม่
Crawl Budget กำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูล
ขีดความสามารถในการรวบรวมข้อมูล
Googlebot ต้องการรวบรวมข้อมูลเว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Googlebot จะคํานวณขีดความสามารถในการรวบรวมข้อมูล ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Googlebot จะใช้เพื่อรวบรวมข้อมูลเว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป
ขีดความสามารถในการรวบรวมข้อมูลอาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้
- ประสิทธิภาพการรวบรวมข้อมูล: ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot ใช้การเชื่อมต่อเพื่อรวบรวมข้อมูลได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลง
- ขีดจํากัดที่เจ้าของเว็บไซต์กําหนดไว้ใน Search Console: เจ้าของเว็บไซต์เลือกที่จะให้ Googlebot รวบรวมข้อมูลในเว็บไซต์น้อยลงได้ โปรดทราบว่าการตั้งขีดจำกัดไว้สูงจะไม่เพิ่มการรวบรวมข้อมูลโดยอัตโนมัติ
- ขีดจำกัดในการรวบรวมข้อมูลของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่
ความต้องการรวบรวมข้อมูล
โดยปกติแล้ว Google จะใช้เวลาในการรวบรวมข้อมูลเว็บไซต์เท่าที่จำเป็น โดยพิจารณาจากขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ
ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการรวบรวมข้อมูล ได้แก่
- รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Googlebot จะพยายามรวบรวมข้อมูล URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบรวบรวมข้อมูลด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการรวบรวมข้อมูลเว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
- ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการรวบรวมข้อมูลบ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
- การไม่มีอัปเดต: ระบบต้องการรวบรวมข้อมูลในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง
นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์อาจทำให้เกิดความต้องการรวบรวมข้อมูลเพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง
สรุป
เมื่อพิจารณาความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูลร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Googlebot สามารถและต้องการรวบรวมข้อมูล แม้ว่าความสามารถในการรวบรวมข้อมูลยังไม่ถึงขีดจำกัดแต่มีความต้องการรวบรวมข้อมูลต่ำ Googlebot ก็จะรวบรวมข้อมูลเว็บไซต์น้อยลง
แนวทางปฏิบัติแนะนำ
ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการรวบรวมข้อมูลสูงสุด
- จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องรวบรวมและไม่ต้องรวบรวมข้อมูลหน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการรวบรวมข้อมูล URL ที่ไม่เหมาะจะใส่ไว้ในดัชนี Googlebot อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่มโควต้าเพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
- รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบรวบรวมข้อมูลโดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
- บล็อกการรวบรวมข้อมูล URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในผลการค้นหา เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญ (สําหรับการค้นหา) โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะลดโอกาสที่ URL จะได้รับการจัดทําดัชนีอย่างมาก
-
แสดงรหัสสถานะ
404
หรือ410
สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ404
เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการรวบรวมข้อมูลนานขึ้น และจะได้รับการรวบรวมข้อมูลอีกครั้งเมื่อมีการเลิกบล็อก - นําข้อผิดพลาด
soft 404
ออก ระบบจะยังทำการ Crawlหน้าsoft 404
ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาดsoft 404
- อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google รวบรวมข้อมูลไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก
<lastmod>
- หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
- ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
- ตรวจสอบการรวบรวมข้อมูลเว็บไซต์ ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการรวบรวมข้อมูลหรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การรวบรวมข้อมูลมีประสิทธิภาพมากขึ้น
ตรวจสอบการรวบรวมข้อมูลและการจัดทำดัชนีของเว็บไซต์
ขั้นตอนสำคัญในการตรวจสอบโปรไฟล์การรวบรวมข้อมูลของเว็บไซต์มีดังนี้
- ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
- ดูว่ามีหน้าที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่
- ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการรวบรวมข้อมูลเร็วกว่าที่เป็นอยู่หรือไม่
- ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
- จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป
1. ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป Google จะกำหนดอัตราการรวบรวมข้อมูลที่ดีที่สุดตามความต้องการรวบรวมข้อมูลตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google รวบรวมข้อมูลเว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ
การวิเคราะห์
ใช้รายงานสถิติการรวบรวมข้อมูลเพื่อดูประวัติการรวบรวมข้อมูลของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์
การแก้ไข
- อ่านเอกสารประกอบรายงานสถิติการรวบรวมข้อมูลเพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
- บล็อกหน้าเว็บไม่ให้ได้รับการรวบรวมข้อมูลหากไม่ต้องการให้มีการรวบรวมข้อมูล (ดูจัดการรายการ URL)
- เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์)
- เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google รวบรวมข้อมูลเว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการรวบรวมข้อมูลหรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการรวบรวมข้อมูลเพื่อดูว่าอัตราการรวบรวมข้อมูลของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการรวบรวมข้อมูลเพิ่มขึ้นในช่วงเวลานั้นหรือไม่
2. ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่
Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)
การวิเคราะห์
Search Console ไม่ได้ให้ประวัติการรวบรวมข้อมูลของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่รวบรวมข้อมูลแล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน
อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการรวบรวมข้อมูล URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว
การแก้ไข
หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการรวบรวมข้อมูลภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือCrawl Budget หมดแล้ว
- บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
- ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
- ตรวจสอบลําดับความสําคัญในการรวบรวมข้อมูล (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
- ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการรวบรวมข้อมูลหากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอรวบรวมข้อมูล
โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการรวบรวมข้อมูลแล้วก็ตาม
3. ดูว่าการอัปเดตได้รับการรวบรวมข้อมูลอย่างรวดเร็วเพียงพอหรือไม่
หากเราไม่ได้รวบรวมข้อมูลหน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า
โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ
การวิเคราะห์
ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ เมื่อใด
หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดตโดยใช้ Google Search
การแก้ไข
สิ่งที่ควรทำ
- ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว ใช้คำสั่ง ping กับ Google เมื่อโพสต์หรือเปลี่ยนแปลงแผนผังเว็บไซต์
- ใช้แท็ก
<lastmod>
ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด - ใช้โครงสร้าง URL แบบง่ายเพื่อช่วยให้ Google พบหน้าเว็บ
- ระบุลิงก์
<a>
ที่รวบรวมข้อมูลได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ
สิ่งที่ควรหลีกเลี่ยง
- ส่งแผนผังเว็บไซต์เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
- คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดในแผนผังเว็บไซต์หรือรวบรวมข้อมูลทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
- ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี
4. ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
เพิ่มความเร็วในการโหลดหน้าเว็บ
สิ่งที่จำกัดการรวบรวมข้อมูลของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจรวบรวมข้อมูลหน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการรวบรวมข้อมูลเนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot รวบรวมข้อมูลในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้รวบรวมข้อมูลเนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการรวบรวมข้อมูลเนื้อหานั้น
วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการรวบรวมข้อมูลมีดังนี้
- ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
- ตรวจสอบว่าหน้าเว็บโหลดเร็ว
- ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
- ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี
ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา
การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการรวบรวมข้อมูลจากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก
การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search รวบรวมข้อมูลอาจส่งผลเสียต่อการรวบรวมข้อมูลและจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้
- การไปยังส่วนต่างๆ ตามข้อมูลประกอบและตัวระบุเซสชัน: (การไปยังส่วนต่างๆ ตามข้อมูลประกอบมักเป็นเนื้อหาที่ซ้ำกันจากเว็บไซต์ ส่วนตัวระบุเซสชันและพารามิเตอร์ของ URL อื่นๆ ที่เพียงแต่จัดเรียงหรือกรองหน้าเว็บเท่านั้นไม่ได้ให้เนื้อหาใหม่) ใช้ robots.txt เพื่อบล็อกหน้าการไปยังส่วนต่างๆ ตามข้อมูลประกอบ
- เนื้อหาที่ซ้ำกัน: ช่วยให้ Google ระบุเนื้อหาที่ซ้ำกันเพื่อหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่จำเป็น
- หน้า
soft 404
: แสดงรหัส404
เมื่อไม่มีหน้าเว็บแล้ว - หน้าที่ถูกแฮ็ก: ตรวจสอบรายงานปัญหาด้านความปลอดภัย และเมื่อพบหน้าเว็บที่ถูกแฮ็ก ให้แก้ไขหรือนําออก
- พื้นที่งานขนาดใหญ่มากและพร็อกซี: บล็อกทั้ง 2 อย่างนี้ไม่ให้มีการรวบรวมข้อมูลด้วย robots.txt
- เนื้อหาคุณภาพต่ำและเป็นสแปม: เป็นที่ทราบอยู่แล้วว่าควรหลีกเลี่ยง
- หน้ารถเข็นช็อปปิ้ง หน้าที่เลื่อนได้ไม่รู้จบ และหน้าที่มีการกระทำ (เช่น หน้า "ลงชื่อสมัครใช้" หรือ "ซื้อเลย")
สิ่งที่ควรทำ
- ใช้ robots.txt หากไม่ต้องการให้ Google รวบรวมข้อมูลทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
- หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง
สิ่งที่ควรหลีกเลี่ยง
- อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
- อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่
5. จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)
Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอรวบรวมข้อมูลจนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้
การวิเคราะห์
ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป
การแก้ไข
ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการรวบรวมข้อมูลจาก Googlebot ที่มากเกินไป
- แสดงรหัสสถานะการตอบกลับ HTTP
503
หรือ429
ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองรวบรวมข้อมูล URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google รวบรวมข้อมูล URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดรวบรวมข้อมูล URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม - ลดอัตราการรวบรวมข้อมูลของ Googlebot สำหรับเว็บไซต์ การดำเนินการนี้อาจใช้เวลาถึง 2 วันจึงจะมีผล และต้องใช้สิทธิ์ระดับเจ้าของพร็อพเพอร์ตี้ใน Search Console โปรดใช้วิธีนี้เฉพาะเมื่อเห็นการรวบรวมข้อมูลที่มากเกินไปจาก Google เกิดขึ้นซ้ำๆ เป็นเวลานานในรายงานสถิติการรวบรวมข้อมูลในแผนภูมิความพร้อมใช้งานของโฮสต์ > การใช้งานโฮสต์
-
เมื่ออัตราการรวบรวมข้อมูลลดลง ให้หยุดแสดงรหัส
503
หรือ429
สำหรับคำขอรวบรวมข้อมูล เนื่องจากการแสดงรหัส503
หรือ429
นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี - ตรวจสอบการรวบรวมข้อมูลและความสามารถของโฮสต์เมื่อเวลาผ่านไป และหากเหมาะสมก็เพิ่มอัตราการรวบรวมข้อมูลอีกครั้ง หรืออนุญาตให้รวบรวมข้อมูลตามอัตราเริ่มต้น
- หากโปรแกรมรวบรวมข้อมูลที่ทำให้เกิดปัญหาคือหนึ่งในโปรแกรมรวบรวมข้อมูล AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณา Search แบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามรวบรวมข้อมูล การรวบรวมข้อมูลนี้จะเกิดขึ้นทุก 2 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการรวบรวมข้อมูลเหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา
ความเชื่อและข้อเท็จจริงเกี่ยวกับการรวบรวมข้อมูล
ทดสอบความรู้เกี่ยวกับการรวบรวมข้อมูลและการจัดทําดัชนีเว็บไซต์ของ Google
nofollow
มีผลต่อ Crawl Budgetnofollow
ระบบก็อาจยังรวบรวมข้อมูล URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow