Google 검색결과의 PDF

2011년 9월 1일 목요일

Google의 목표는 전 세계의 정보를 체계화하여 누구나 유용하게 이용할 수 있도록 하는 것입니다. 이를 향한 야심 찬 여정에는 PDF, 스프레드시트, 프레젠테이션 등 HTML이 아닌 파일도 등장합니다. Google 알고리즘은 다양한 파일 형식으로 인해 속도가 저하되지 않습니다. Google은 관련 콘텐츠를 추출하고 검색결과에 알맞은 색인을 생성하기 위해 열심히 노력하고 있습니다. 그러나 이러한 파일 형식의 색인을 실제로 생성하려면 어떻게 해야 할까요? 표준 HTML과는 매우 다른 경우가 많은 이러한 파일에는 어떤 가이드라인이 적용될까요? 웹마스터가 Google에서 색인을 생성하지 못하게 하면 어떻게 하죠?

Google은 2001년 처음으로 PDF 파일의 색인 생성을 시작했고 현재 PDF 파일 수억 개의 색인이 생성되어 있습니다. PDF 색인 생성에 관해 자주 묻는 질문을 모아 여기에 답해 드립니다.

Q: Google에서는 모든 유형의 PDF 파일 색인을 생성할 수 있나요?
A: 일반적으로 다양한 종류의 문자 인코딩을 사용하는 PDF 파일의 텍스트 콘텐츠(작성된 언어와 상관없음)는 색인을 생성할 수 있습니다. 단, 비밀번호로 보호되거나 암호화되지 않아야 합니다. 텍스트가 이미지로 삽입되어 있는 경우 OCR 알고리즘으로 이미지를 처리하여 텍스트를 추출할 수 있습니다. 일반적으로 PDF 문서의 텍스트를 복사하여 표준 텍스트 문서에 붙여넣을 수 있으면 Google에서는 그러한 텍스트의 색인을 생성할 수 있습니다.

Q: PDF 파일의 이미지는 어떻게 되나요?
A: 현재 이미지는 색인이 생성되지 않습니다. Google에서 이미지의 색인을 생성하려면 이미지의 HTML 페이지를 만들어 주셔야 합니다. Google에서 검색결과에 이미지를 표시할 가능성을 높이려면 Google 이미지 권장사항을 참고하세요.

Q: PDF 문서에서 링크는 어떻게 처리되나요?
A: 일반적으로 PDF 파일의 링크는 HTML의 링크와 유사하게 처리됩니다. 링크를 통해 PageRank와 기타 색인 생성 신호가 전달될 수 있으며, Google에서는 PDF 파일을 크롤링한 후 이를 따를 수 있습니다. 현재 PDF 문서 내에서 nofollow 링크는 사용할 수 없습니다.

Q: PDF 파일이 검색결과에 표시되지 않도록 하려면 어떻게 해야 하나요? 이미 표시되었다면 어떻게 삭제할 수 있나요?
A: PDF 문서가 검색결과에 표시되지 않도록 하는 가장 간단한 방법은 파일을 제공하는 데 사용되는 HTTP 헤더에 X-Robots-Tag: noindex를 추가하는 것입니다. 이미 색인이 생성된 경우 noindex 규칙과 X-Robot-Tag를 함께 사용하면 시간이 지난 뒤 삭제됩니다. 더 빨리 삭제하려면 Google 웹마스터 도구의 URL 삭제 도구를 사용하면 됩니다.

Q: PDF 파일은 검색결과에서 순위가 높을 수 있나요?
A: 물론입니다. 일반적으로 다른 웹페이지와 비슷하게 순위가 매겨집니다. 예를 들어 이 게시물 작성 시점에는 주택담보대출 시장 리뷰2011년도 국세청 양식, 아세트아미노펜 전문가 보고서가 모두 검색결과에서 높은 순위를 차지한 PDF 문서를 반환합니다. 콘텐츠 자체는 물론 다른 웹페이지에서 삽입되고 연결되는 방식 덕분입니다.

Q: HTML과 PDF 페이지 사본이 둘 다 있는 경우 중복 콘텐츠로 간주되나요?
A: 가능하면 콘텐츠의 단일 사본을 게재하는 것이 좋습니다. 그럴 수 없다면 예를 들어 사이트맵에 선호 URL을 포함하거나 HTML 또는 PDF 리소스의 HTTP 헤더에서 표준 버전을 지정하여 선호 버전을 표시해야 합니다. 자세한 내용은 표준화에 관한 고객센터 도움말을 참고하세요.

Q: PDF 문서의 검색결과에 표시되는 제목을 다르게 하려면 어떻게 해야 하나요?
A: Google에서는 파일 내 제목 메타데이터와 PDF 파일로 연결되는 링크의 앵커 텍스트, 두 가지 기본 요소를 사용하여 표시되는 제목을 결정합니다. 사용하기를 원하는 제목에 관한 강력한 신호를 Google 알고리즘에 제공하려면 두 요소를 모두 업데이트하는 것이 좋습니다.

자세히 알아보려면 PDF 파일의 검색 최적화에 관한 맷 커트의 동영상을 시청하세요. Google에서 색인을 생성할 수 있는 콘텐츠 유형에 관한 자세한 내용은 고객센터를 참고하세요. 의견이나 제안사항이 있으면 웹마스터 도움말 포럼을 통해 알려주시기 바랍니다.