Google 搜尋結果中的 PDF 檔案

2011 年 9 月 01 日,星期四

Google 的使命是彙整全球資訊,供大眾使用,使人人受惠。在這個遠大的任務中,有時會遇到 PDF 檔案、試算表和簡報等非 HTML 檔案的內容。但 Google 的演算法並不會因檔案類型不同而降低速度。我們致力於擷取相關內容,並為搜尋結果建立適當的索引。不過,面對這些與標準 HTML 大不相同的檔案,Google 實際上如何為這些檔案類型套用準則並建立索引?如果網站管理員不希望 Google 為這些網頁建立索引,該怎麼做?

Google 於 2001 年開始製作 PDF 檔案的索引,目前已為數億個 PDF 檔案建立索引。我們收集了有關 PDF 索引的常見問題,並於下方提供解答:

問:Google 能為任何類型的 PDF 檔案建立索引嗎?
答:一般而言,只要 PDF 檔案內容是未受密碼保護或未經加密的各種字元編碼 (不限語言),Google 就能為檔案中的文字內容建立索引。如果是內嵌於圖片中的文字,Google 可能會使用 OCR 演算法處理圖片以擷取文字。原則上,如果您可以將 PDF 文件中的文字複製及貼上至標準文字文件中,Google 應該就能為該文字建立索引。

問:Google 會如何處理 PDF 檔案中的圖片?
答:目前 Google 不會為圖片建立索引。建議您為圖片建立 HTML 網頁,以利 Google 為您的圖片建立索引。如果您希望提高圖片出現在搜尋結果中的機會,請參閱 Google 圖片最佳做法

問:Google 會如何處理 PDF 文件中的連結?
答:Google 對於 PDF 檔案中一般連結的處理方式大致與 HTML 中的一般連結類似:這些連結可以傳遞 PageRank 和其他索引信號,而且 Google 可能會在檢索 PDF 檔案後追蹤這些連結。目前無法在 PDF 文件中使用 nofollow 連結。

問:如何防止我的 PDF 檔案顯示在搜尋結果中?或是如何移除已顯示在搜尋結果中的檔案?
答:如要防止 PDF 文件出現在搜尋結果中,最簡單的做法就是在用來提供檔案的 HTTP 標頭中加入 X-Robots-Tag: noindex。如果 Google 已為上述項目建立索引,您可以使用 X-Robot-Tag 搭配 noindex 規則,讓這些索引隨著時間消失。如要更快移除內容,可以使用 Google 網站管理員工具中的網址移除工具

問:PDF 檔案可以在搜尋結果中達到較高的排名嗎?
答:當然可以!PDF 檔案的排名通常與其他網頁類似。舉例來說,本文發布當時,在 Google 搜尋輸入 mortgage market reviewirs form 2011paracetamol expert report,傳回的搜尋結果中排名較高的內容均為 PDF 文件,這是 Google 考量那些文件的內容、嵌入網頁的方式以及與其他網頁的連結所呈現的排名結果。

問:如果 HTML 和 PDF 中有我的網頁副本,這樣是否會被視為重複的內容?
答:建議您盡可能只提供一份內容。如果無法採取這種做法,請務必指定您偏好的版本,例如在 Sitemap 中使用偏好的網址,或是在 HTML 或 PDF 資源的 HTTP 標頭中指明標準版本。如需更多提示,請參閱有關標準化的說明中心文章。

問:如何影響 PDF 文件在搜尋結果中所顯示的標題?
答:Google 會使用兩個主要元素來決定要顯示哪個標題:檔案中的標題中繼資料,以及指向 PDF 檔案的連結錨定文字。為了更明確的提示演算法使用適當的標題,建議您同時更新兩者。

如需更多詳細資訊,請觀看馬特卡茨的影片,瞭解如何對 PDF 檔案進行有利搜尋的最佳化調整,並造訪我們的說明中心,瞭解 Google 可為哪些內容類型建立索引。如有任何意見或建議,歡迎前往網站管理員說明論壇告訴我們。