漫遊器常見問題

漫遊器一般問題

robots.txt 檔案是每個網站必備的嗎?

不是必備。造訪網站時,Googlebot 會先嘗試擷取 robots.txt 檔案,尋求檢索權限。如果網站沒有 robots.txt 檔案、robots meta 標記或 X-Robots-Tag HTTP 標頭,Googlebot 通常就會進行檢索並為其建立索引。

我該透過哪一種方法封鎖檢索器?

視情況而定。簡而言之,這些方法各有優勢:

  • robots.txt:如果檢索您的內容會導致您的伺服器發生問題,請使用這個方法。舉例來說,如果您有能夠無限制向下捲動的日曆指令碼,就建議禁止 Googlebot 檢索這類內容。請不要使用 robots.txt 來封鎖私人內容或處理網址標準化;如果要封鎖私人內容,請改用伺服器端驗證。 如要確保系統不會為網址建立索引,請改用 robots meta 標記或 X-Robots-Tag HTTP 標頭。
  • robots meta 標記:如果需要控制個別 HTML 網頁在搜尋結果中的顯示方式,或是要確保搜尋結果不會顯示這些網頁,請使用這個方法。
  • X-Robots-Tag HTTP 標頭:如果需要控制特定內容在搜尋結果中的顯示方式,或是要確保搜尋結果不會顯示這類內容,請使用這個方法。

我可以使用 robots.txt、robots meta 標記,或 X-Robots-Tag HTTP 標頭,將他人網站從搜尋結果中移除嗎?

不可以。這些方法僅適用於您有權修改程式碼或新增檔案的網站。進一步瞭解如何從 Google 服務移除特定資訊

我該如何減緩 Google 檢索網站的頻率?

一般來說,您可以在 Google Search Console 帳戶中調整檢索頻率設定

robots.txt 相關問題

我在多個網站使用同一個 robots.txt,我可以使用完整網址而不使用相對路徑嗎?

不可以。除了 sitemap: 之外,robots.txt 檔案中的規則都只支援相對路徑。

我可以把 robots.txt 檔案放在子目錄中嗎?

不可以。這個檔案必須放在網站最上層的目錄中。

我想封鎖私人資料夾。我可以禁止他人讀取我的 robots.txt 檔案嗎?

不可以。許多使用者都能讀取 robots.txt 檔案,如果內容的資料夾或檔案名稱不適合公開,請不要在 robots.txt 檔案中列出這些資訊。我們不建議依照使用者代理程式或其他屬性來提供不同的 robots.txt 檔案。

一定要加入 allow 規則才能夠允許檢索嗎?

不,您不一定要加入 allow 規則。所有網址其實都默許檢索,allow 規則事實上是用來覆寫同一個 robots.txt 檔案中的 disallow 規則。

如果 robots.txt 檔案出現錯誤或使用了不支援的規則,會發生什麼事?

網路檢索器的作業方式通常都相當有彈性,不會因為 robots.txt 檔案中出現小錯誤而受到影響。一般而言,最糟的情況是系統會忽略不正確或不支援的規則。提醒您,在解讀 robots.txt 檔案時,Google 無法去揣測您未清楚表明的用意,只會依照擷取到的 robots.txt 檔案進行解讀。不過,如果您發現自己的 robots.txt 檔案有問題,這些問題通常都能輕鬆解決

應該使用什麼程式建立 robots.txt 檔案?

只要能夠建立有效的文字檔,使用任何程式都可以。常用來建立 robots.txt 檔案的程式包括 Notepad、TextEdit、vi 或 emacs。 您可以參考這篇文章,進一步瞭解如何建立 robots.txt 檔案。建立檔案後,請使用 robots.txt 測試工具進行驗證。

如果使用 robots.txt disallow 規則禁止 Google 檢索某個網頁,該網頁是否就不會顯示在搜尋結果中?

一般來說,禁止 Google 檢索網頁就能使網頁從 Google 的索引中移除。

不過,使用 robots.txt disallow 指令無法保證網頁不出現在搜尋結果中,因為 Google 可能還是會依據連入連結等外部資訊,認定網頁內容與使用者的查詢有所關聯,而在搜尋結果中顯示該網頁網址。如要明確禁止系統為網頁建立索引,請使用 noindex robots meta 標記或 X-Robots-Tag HTTP 標頭。在這種情況下,請不要在 robots.txt 中封鎖網頁,因為檢索器必須先檢索網頁,才有辦法發現標記並遵循指示。瞭解如何控管您與 Google 分享的資訊

robots.txt 檔案變更後,要經過多久才會對搜尋結果產生影響?

首先,我們必須重新整理 robots.txt 檔案的快取內容 (我們保留快取內容的時間通常不超過一天)。如要加快這項程序,您可以將更新後的 robots.txt 提交給 Google。不過,即使找到了變更內容,由於檢索和建立索引的過程相當複雜,處理個別網址有時需要不少時間,因此無法提供您確切時程。此外也要提醒您,即使您的 robots.txt 檔案禁止 Googlebot 存取特定網址,而我們也確實無法檢索,但該網址還是有可能會顯示在搜尋結果中。如要盡速移除不希望受到 Google 檢索的網頁,請透過提交移除要求

如果要全面暫停 Google 對我網站的檢索作業,該怎麼做?

您可以針對所有網址 (包括 robots.txt 檔案) 傳回 503 (service unavailable) HTTP 結果碼,這樣就能暫停所有檢索作業。搜尋引擎會定期重新嘗試存取 robots.txt 檔案,直到可以再次存取該檔案為止。我們不建議您為了禁止檢索作業而變更 robots.txt 檔案。

我的伺服器並沒有區分大小寫,該如何完全禁止 Google 檢索我的某些資料夾?

由於 robots.txt 檔案中的規則有區分大小寫,在這種情況下,建議您使用標準化方法,確認搜尋引擎只為網址的其中一個版本建立索引。 這麼做有助於減少 robots.txt 檔案的行數,減輕管理負擔。如果無法採用這種做法,則建議您列出常用的資料夾名稱組合,或者盡可能縮短資料夾名稱,只使用名稱中的前面幾個字元而不使用完整名稱。舉例來說,假設資料夾名稱為「/MyPrivateFolder」,您可以不必列出該名稱所有的大小寫排列組合,只要列出「/MyP」的排列組合即可 (但必須先確定沒有其他可檢索網址的開頭也使用這些字元)。或者,如果不用擔心檢索問題,也可以考慮改用 robots meta 標記或 X-Robots-Tag HTTP 標頭。

我已經讓 robots.txt 檔案在內的所有網址都傳回 403 Forbidden (禁止存取) 代碼,為什麼網站依然受到檢索?

收到 403 Forbidden (禁止存取) HTTP 狀態碼以及其他所有 4xx HTTP 狀態碼時,系統會解讀為 robots.txt 檔案不存在。這表示在一般狀況下,檢索器會假設自己能夠檢索網站的所有網址。如要禁止 Google 檢索該網站,您必須使用 200 OK (確定) HTTP 狀態碼照常傳回 robots.txt,且必須在檔案中加入適當的 disallow 規則。

robots meta 標記問題

robots meta 標記可以取代 robots.txt 檔案嗎?

不可以。robots.txt 檔案會控制哪些網頁可供存取,robots meta 標記則會控制網頁是否可建立索引,而檢索器必須要能檢索網頁,才能看到網頁上的中繼標記。如果檢索器無法順利檢索網頁 (例如網頁造成伺服器處於高負載情況),請使用 robots.txt 檔案。如果只是想控制網頁在搜尋結果中顯示與否,可以使用 robots meta 標記。

使用 robots meta 標記可以讓系統在建立索引時,避開網頁的某個部分嗎?

不可以,robots meta 標記屬於網頁層級設定,無法單獨套用於網頁中的特定部分。

我可以在 <head> 以外的地方使用 robots meta 標記嗎?

不可以,robots meta 標記必須放置在網頁的 <head> 部分。

robots meta 標記是否會禁止檢索?

不會。即使 robots meta 標記目前指明 noindex,我們還是必須不定時重新檢索該網址,檢查 meta 標記是否有所變更。

nofollow robots meta 標記與 rel="nofollow" 連結屬性有何差異?

nofollow robots meta 標記適用於網頁上的所有連結,rel="nofollow" 連結屬性則僅適用於網頁上的特定連結。如要進一步瞭解 rel="nofollow" 連結屬性,請參閱關於使用者產生的垃圾內容rel="nofollow" 的說明文件。

X-Robots-Tag HTTP 標頭相關問題

如何檢查網址的 X-Robots-Tag

如要查看伺服器標頭,較簡便的方法是使用 Google Search Console 中的網址檢查工具功能。如要查看任何網址的回應標頭,請嘗試搜尋「伺服器標頭檢查工具」。