Feedfetcher

Google 會使用 Feedfetcher 來擷取 Google Play 書報攤PubSubHubbub 的 RSS 或 Atom 動態消息。 Feedfetcher 會儲存並定期重新整理這些由使用者提出的動態消息,但不會將這些動態消息編入 Google 搜尋服務索引,只有由 Googlebot 檢索的動態消息才會出現在我們的搜尋結果中。以下針對幾個常見問題提供解答,說明這個由使用者控制的動態消息收集工具如何運作。

如何要求 Google 不要擷取網站的部分動態消息或所有動態消息?

當使用者新增的服務或應用程式使用了 Feedfetcher 資料時,Google 的 Feedfetcher 便會嘗試取得該動態消息的內容,以便顯示在搜尋結果中。因為 Feedfetcher 是否提出要求來自於使用者的明確指示,而不是由自動檢索器控制,所以 Feedfetcher 不會遵循 robots.txt 的指示。

如果您的動態消息為公開狀態,Google 就無法禁止使用者存取您的動態消息。如要解決這項問題,您可以設定網站,讓網站向 Feedfetcher-Google 使用者代理程式送出 404、410 或其他錯誤狀態訊息。

如果您的動態消息是由網誌或網站代管服務所提供,請直接要求該服務限制使用者存取您的動態消息。

Feedfetcher 多久擷取一次我的動態消息?

對大部分網站而言,Feedfetcher 平均每小時最多擷取一次, 如果是時常更新的網站,Feedfetcher 可能會提高重新整理頻率。但是請注意,如果出現網路延遲的情況,Feedfetcher 可能會較為頻繁地擷取您的動態消息,但這只是暫時性的現象。

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是因為有使用者對不存在的動態消息網址提出要求。

為什麼 Feedfetcher 會從我的「秘密」網路伺服器下載資訊?

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是因為要求擷取該動態消息的使用者知道您的「秘密」伺服器,或不小心打錯網址,結果擷取到您的「秘密」伺服器。

為什麼 Feedfetcher 沒有依照 robots.txt 檔案中的指示運作?

只有當使用者啟動的服務或應用程式要求動態消息資料時,Feedfetcher 才會擷取動態消息。Feedfetcher 會以真人使用者直接代理人的身分行動,而非機器人,所以會忽略 robots.txt 中的指示。由於 Feedfetcher 可以做為多位使用者的代理人,因此可以一次代表所有使用者,透過應用程式或服務向常見的動態消息提出要求,進而節省頻寬。常見的動態消息有 RSSAtom 兩種。

您可以調整伺服器設定,向 Feedfetcher-Google 使用者代理程式傳送 404、410 或其他錯誤狀態訊息,禁止 Feedfetcher 檢索您的網站。

我發現有來自 Google.com 多部機器的造訪記錄,而且使用者代理程式都是 Feedfetcher,為什麼會這樣?

Feedfetcher 本身的設計就能夠分散在多台機器上運作,藉此提升執行效能,並配合網路規模的成長而擴充。為了減少頻寬使用量,我們通常依據要擷取的網站,使用網路中距離最近的機器來進行擷取。

我想要篩選記錄,是否能告訴我 Feedfetcher 提出要求的 IP 位址?

Feedfetcher 使用的 IP 位址會不時變更,如果想確認 Feedfetcher 的要求,最好的方法是找出其使用者代理程式 Feedfetcher-Google

為什麼 Feedfetcher 多次下載網站的同一個網頁?

通常在每次擷取動態消息時,Feedfetcher 會從網站下載每個檔案一次。但有些時候,如果我們的機器停止運作又重新開機,就會導致 Feedfetcher 再次擷取最近才造訪過的網頁。

與一般網路檢索器不同,Feedfetcher 並不會追蹤連結;當使用者在採用 Feedfetcher 的服務或應用程式中提出要求時,Feedfetcher 才會針對要求進行追蹤。

我還有其他 Feedfetcher 相關問題,哪裡可以取得更多說明?

如果您還有其他問題,歡迎在 Search Console 論壇發文提問。