Feedfetcher

Feedfetcher 是 Google 檢索 Google 播客、Google 新聞PubSubHubbub 的 RSS 或 Atom 動態消息的方式。Feedfetcher 會儲存並定期重新整理這些由應用程式或服務使用者所要求的動態消息。只有 Podcast 動態消息會編入 Google 搜尋的索引中;不過,如果動態消息不符合 AtomRSS 規格,系統還是有可能將其編入索引。以下針對幾個常見問題提供解答,說明這個由使用者控制的動態消息收集工具如何運作。

如何要求 Google 不要擷取網站的部分動態消息或所有動態消息?

當使用者新增的服務或應用程式使用了 Feedfetcher 資料時,Google 的 Feedfetcher 便會嘗試取得該動態消息的內容,以便顯示在搜尋結果中。因為 Feedfetcher 是否提出要求來自於使用者的明確指示,而不是由自動檢索器控制,所以 Feedfetcher 不會遵循 robots.txt 的指示。

如果您的動態消息為公開狀態,Google 就無法禁止使用者存取您的動態消息。如要解決這項問題,可以設定網站,讓網站向 Feedfetcher-Google 使用者代理程式送出 404410 或其他錯誤狀態訊息。

如果您的動態消息是由網誌或網站代管服務所提供,請直接要求該服務限制使用者存取您的動態消息。

Feedfetcher 多久擷取一次我的動態消息?

對大部分網站而言,Feedfetcher 平均每小時最多擷取一次, 如果是時常更新的網站,Feedfetcher 可能會提高重新整理頻率。但是請注意,如果出現網路延遲的情況,Feedfetcher 可能會較為頻繁地擷取您的動態消息,但這只是暫時性的現象。

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是因為有使用者對不存在的動態消息網址提出要求。

為什麼 Feedfetcher 會從我的「秘密」網路伺服器下載資訊?

Feedfetcher 會根據使用者安裝的服務或應用程式中的要求來擷取動態消息,所以可能是因為要求擷取該動態消息的使用者知道您的「秘密」伺服器,或不小心打錯網址,結果擷取到您的「秘密」伺服器。

為什麼 Feedfetcher 沒有依照 robots.txt 檔案中的指示運作?

只有當使用者啟動的服務或應用程式要求動態消息資料時,Feedfetcher 才會擷取動態消息。Feedfetcher 會以真人使用者直接代理人的身分行動,而非機器人,所以會忽略 robots.txt 中的指示。由於 Feedfetcher 可以做為多位使用者的代理人,因此可以一次代表所有使用者,透過應用程式或服務向常見的動態消息提出要求,進而節省頻寬。常見的動態消息有 RSSAtom 兩種。

您可以調整伺服器設定,向 Feedfetcher-Google 使用者代理程式傳送 404410 或其他錯誤狀態訊息,禁止 Feedfetcher 檢索您的網站。

我發現有來自 Google.com 多部機器的造訪記錄,而且使用者代理程式都是 Feedfetcher,為什麼會這樣?

Feedfetcher 本身的設計就能夠分散在多台機器上運作,藉此提升執行效能,並配合網路規模的成長而擴充。為了減少頻寬使用量,我們通常依據要擷取的網站,使用網路中距離最近的機器來進行擷取。

我想要篩選記錄,是否能告訴我 Feedfetcher 提出要求的 IP 位址?

Feedfetcher 使用的 IP 位址會不時變更,如果想確認 Feedfetcher 的要求,最好的方法是找出其使用者代理程式 Feedfetcher-Google

為什麼 Feedfetcher 多次下載網站的同一個網頁?

通常在每次擷取動態消息時,Feedfetcher 會從網站下載每個檔案一次。但有些時候,如果我們的機器停止運作又重新開機,就會導致 Feedfetcher 再次擷取最近才造訪過的網頁。

與一般網路檢索器不同,Feedfetcher 並不會追蹤連結;當使用者在採用 Feedfetcher 的服務或應用程式中提出要求時,Feedfetcher 才會針對要求進行追蹤。

我還有其他 Feedfetcher 相關問題,哪裡可以取得更多說明?

如果您還有其他問題,歡迎在 Search Console 論壇發文提問。