Googlebot

Googlebot 是 Google 網路檢索器的通稱。 Google 有兩種網路檢索器,分別是模擬電腦使用者的電腦檢索器,以及模擬行動裝置使用者的行動裝置檢索器。

電腦檢索器 Googlebot Desktop 和行動裝置檢索器 Googlebot Smartphone 都可能檢索您的網站,您可以從要求中的使用者代理程式字串來辨別是哪一種檢索器。不過,這兩種檢索器都會遵循 robots.txt 中的同一個產品權杖 (使用者代理程式權杖),因此您無法在 robots.txt 中特意指定 Googlebot Smartphone 或 Googlebot Desktop。

如果您的網站已轉換至 Google 的行動版內容優先索引系統,那麼大部分 Googlebot 檢索要求都會來自行動裝置檢索器,只有一小部分會來自電腦檢索器。如為未經轉換的網站,則大部分檢索作業會由電腦檢索器進行。無論是哪一種情況,次要檢索器都只會檢索主要檢索器已檢索過的網址。

Googlebot 如何存取您的網站

一般而言,Googlebot 不會在幾秒鐘的時間內連續存取網站好幾次。不過,如果出現延遲的情況,短時間內的檢索頻率確實可能會稍微偏高。

Googlebot 能夠同時由數千台機器運作,藉此提升執行效能,並配合網路規模的成長擴充。此外,為了減少頻寬用量,我們會根據可能檢索的網站,在距離較近的機器上執行多個檢索器。因此您可能會發現有來自 google.com 多部機器的造訪記錄,而且都是透過 Googlebot 使用者代理程式。我們的目標是在每次造訪網站時,盡可能檢索更多網頁,同時避免對伺服器頻寬造成太大影響。如果您的網站無法應付 Google 的檢索要求,可以要求變更檢索頻率

Googlebot 的檢索作業通常透過 HTTP/1.1 進行,不過從 2020 年 11 月起,如果網站支援 HTTP/2 的話,Googlebot 可能會透過這個協定進行檢索。這種做法可以節省網站和 Googlebot 的運算資源 (例如 CPU、RAM),但不會影響網站的索引作業或排名。

如要選擇不透過 HTTP/2 進行檢索,請對代管網站的伺服器下達指示,要求伺服器在 Googlebot 嘗試透過 HTTP/2 檢索網站時傳回 421 HTTP 狀態碼。如果無法採取這種做法,您也可以傳送訊息給 Googlebot 團隊,不過這只是暫時性的解決方案。

禁止 Googlebot 瀏覽您的網站

在大部分情況下,即使您不公開網路伺服器的連結,也無法讓伺服器保持隱藏。這是因為您的「秘密」伺服器還是會連結到其他網路伺服器,一旦有人追蹤到這個連結,您的「秘密」網址就會出現在參照標記中,其他網路伺服器也可以將該網址儲存在其參照記錄中並加以發布。同樣地,網路上也有許多過期和無效的連結。 每當有人針對您的網站發布無效連結,或是未適時更新連結以反映您的伺服器變更時,Googlebot 就會試著從您的網站檢索錯誤的連結。

如要禁止 Googlebot 檢索您網站上的內容,可以採取多種方式。請留意這些做法之間的差異,例如禁止 Googlebot 檢索網頁、禁止 Googlebot 為網頁建立索引,以及完全禁止任何檢索器或使用者存取網頁。

驗證 Googlebot

決定封鎖 Googlebot 前,請留意其他檢索器經常假冒 Googlebot 採用的使用者代理程式字串,因此請務必驗證有問題的要求,確認是否真的由 Google 提出。如要確認要求是否由 Googlebot 發出,最好的做法是針對要求的來源 IP 執行反向 DNS 查詢

Googlebot 和所有正派的搜尋引擎漫遊器都會遵照 robots.txt 中的指令來檢索網站,但有些惡意份子和垃圾內容發布者就不會遵照這些指令。Google 會積極對抗垃圾內容發布者;如果您在 Google 搜尋結果中發現含有垃圾內容的網頁或網站,可以向 Google 檢舉垃圾內容