Google 的使命是彙整全球資訊,供大眾使用,使人人受惠。在這個遠大的任務中,有時會遇到 PDF 檔案、試算表和簡報等非 HTML 檔案的內容。但 Google 的演算法並不會因檔案類型不同而降低速度。我們致力於擷取相關內容,並為搜尋結果建立適當的索引。不過,面對這些與標準 HTML 大不相同的檔案,Google 實際上如何為這些檔案類型套用準則並建立索引?如果網站管理員不希望 Google 為這些網頁建立索引,該怎麼做?
問:Google 能為任何類型的 PDF 檔案建立索引嗎?
答:一般而言,只要 PDF 檔案內容是未受密碼保護或未經加密的各種字元編碼 (不限語言),Google 就能為檔案中的文字內容建立索引。如果是內嵌於圖片中的文字,Google 可能會使用 OCR 演算法處理圖片以擷取文字。原則上,如果您可以將 PDF 文件中的文字複製及貼上至標準文字文件中,Google 應該就能為該文字建立索引。
問:Google 會如何處理 PDF 檔案中的圖片?
答:目前 Google 不會為圖片建立索引。建議您為圖片建立 HTML 網頁,以利 Google 為您的圖片建立索引。如果您希望提高圖片出現在搜尋結果中的機會,請參閱 Google 圖片最佳做法。
問:Google 會如何處理 PDF 文件中的連結?
答:Google 對於 PDF 檔案中一般連結的處理方式大致與 HTML 中的一般連結類似:這些連結可以傳遞 PageRank 和其他索引信號,而且 Google 可能會在檢索 PDF 檔案後追蹤這些連結。目前無法在 PDF 文件中使用 nofollow 連結。
問:如何防止我的 PDF 檔案顯示在搜尋結果中?或是如何移除已顯示在搜尋結果中的檔案?
答:如要防止 PDF 文件出現在搜尋結果中,最簡單的做法就是在用來提供檔案的 HTTP 標頭中加入 X-Robots-Tag: noindex。如果 Google 已為上述項目建立索引,您可以使用 X-Robot-Tag 搭配 noindex 規則,讓這些索引隨著時間消失。如要更快移除內容,可以使用 Google 網站管理員工具中的網址移除工具。
問:如果 HTML 和 PDF 中有我的網頁副本,這樣是否會被視為重複的內容?
答:建議您盡可能只提供一份內容。如果無法採取這種做法,請務必指定您偏好的版本,例如在 Sitemap 中使用偏好的網址,或是在 HTML 或 PDF 資源的 HTTP 標頭中指明標準版本。如需更多提示,請參閱有關標準化的說明中心文章。
問:如何影響 PDF 文件在搜尋結果中所顯示的標題?
答:Google 會使用兩個主要元素來決定要顯示哪個標題:檔案中的標題中繼資料,以及指向 PDF 檔案的連結錨定文字。為了更明確的提示演算法使用適當的標題,建議您同時更新兩者。
如需更多詳細資訊,請觀看馬特卡茨的影片,瞭解如何對 PDF 檔案進行有利搜尋的最佳化調整,並造訪我們的說明中心,瞭解 Google 可為哪些內容類型建立索引。如有任何意見或建議,歡迎前往網站管理員說明論壇告訴我們。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["缺少我需要的資訊","missingTheInformationINeed","thumb-down"],["過於複雜/步驟過多","tooComplicatedTooManySteps","thumb-down"],["過時","outOfDate","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["示例/程式碼問題","samplesCodeIssue","thumb-down"],["其他","otherDown","thumb-down"]],[],[[["Google can index content from most PDFs, including those with various character encodings and languages, as long as they're not password-protected or encrypted."],["Links within PDFs are treated similarly to HTML links, passing PageRank and indexing signals; however, `nofollow` links within PDFs aren't currently supported."],["To prevent PDF indexing, use the `X-Robots-Tag: noindex` HTTP header; for removal of already indexed PDFs, use this tag or Google's URL removal tool."],["PDF files can rank highly in search results based on content and link factors, similar to web pages."],["For content available in both HTML and PDF, indicate your preferred version using sitemaps, canonical tags, or HTTP headers to avoid duplicate content issues."]]],["Google indexes PDF files, extracting text even from images via OCR, if copy-paste is possible. Links in PDFs function similarly to HTML links, influencing indexing. To exclude PDFs from search results, use the `X-Robots-Tag: noindex` header or the URL removal tool. PDFs can rank highly, but duplicate HTML/PDF content should be canonicalized. Title metadata and anchor text of links pointing to the PDF impact the search result title.\n"]]