사이트설정: 검색할 사이트 정의

이 페이지에서는 XML 주석 파일을 사용하여 검색엔진의 범위를 정의하는 방법을 설명합니다.

  1. Overview
  2. 프로그래밍 검색 XML 형식 사용
  3. 검색 노출 범위 개선
  4. 주석 한도

개요

대규모 검색엔진을 구축하고 있다면 대규모 사이트 모음을 관리하는 작업이 번거로울 수 있습니다. 대신 사이트설정 파일에 사이트를 나열하고 업로드하여 많은 사이트를 추가하고 관리할 수 있습니다. 또한 주석 파일을 사용하면 검색결과의 순위를 훨씬 더 세부적으로 제어할 수 있습니다.

주석 파일은 간단히 주석의 목록입니다. 각 주석에는 사이트와 관련 라벨이라는 두 가지 구성요소가 있습니다. 라벨은 프로그래밍 검색 엔진에 사이트를 처리하는 방법, 즉 사이트를 포함, 제외, 승격 또는 강등해야 하는지 여부를 알려줍니다. 컨텍스트 파일에서 라벨을 정의하고, 주석 파일에서 적절한 라벨로 사이트에 태그를 지정합니다.

주석 파일을 수정할 때는 먼저 적은 수의 주석으로 시작합니다. 몇 개의 사이트설정을 사용하면 검색엔진을 손쉽게 테스트하고 문제를 해결할 수 있습니다. 원하는 결과가 나오면 점진적으로 주석을 추가합니다.

제어 패널에 주석 파일을 업로드할 수 있습니다. 파일 한도에 대한 자세한 내용은 주석 한도 섹션을 참조하세요.

맨 위로

프로그래밍 검색 XML 형식 사용

프로그래밍 검색 엔진 구성 파일에서 사용할 수 있는 모든 기능을 활용하려면 XML을 사용하는 것이 좋습니다.

XML 주석

다음은 XML 주석의 예입니다. 이 주석 파일은 프로그래밍 검색 엔진에 www.webmd.com/hw/* 아래의 모든 항목이 포함되고 www.webmd.com/hw/cancer/* 아래의 모든 항목이 제외되도록 지시합니다.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

주석 파일에는 다음과 같은 계층에 4개의 요소가 있습니다.

  • Annotations (루트 요소)
    • Annotation
      • Label
      • Comment (선택사항)

맨 위로

외부 주석 만들기

검색엔진에서 포함하려는 사이트 목록을 만들려면 다음 단계를 따르세요.

  1. <Annotations></Annotations> 루트 요소로 파일을 시작합니다.
  2. <Annotation></Annotation> 태그를 추가하여 주석을 만든 다음 사이트의 URL 패턴을 사용하여 about 속성을 정의합니다.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. <Label name=" "/> 태그를 사용하여 사이트를 검색엔진과 연결하고 검색엔진에서 사이트를 처리하는 방법을 지정합니다. 검색엔진의 컨텍스트 파일에서 검색엔진의 라벨을 가져올 수 있습니다. 두 개의 라벨이 있습니다. 하나는 프로그래밍 검색 엔진에 사이트를 추가하는 라벨이고 다른 하나는 프로그래밍 검색 엔진에서 사이트를 제외하는 데 대한 라벨입니다. 환경설정 파일에서 검색엔진 라벨 이름을 변경하지 않은 경우 사이트 포함 라벨은 _include_ 형식이고 사이트 제외 라벨은 _exclude_ 형식입니다. 오류를 방지하려면 라벨을 직접 입력하는 대신 복사하여 붙여넣으세요.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    단일 사이트에는 여러 라벨이 연결될 수 있습니다.

    컨텍스트 파일에서 라벨 이름을 변경한 경우 주석 파일의 Label name 값을 업데이트해야 합니다.

  4. 사이트를 더 추가하려면 다른 Annotation 요소를 만들고 정의합니다.
  5. XML 파일을 저장합니다.

맨 위로

검색 노출 범위 개선

프로그래밍 검색 엔진은 Google 색인을 기반으로 구축됩니다. 즉, Google 색인에 있는 웹페이지는 검색엔진에서 사용할 수 있습니다. 반대로 Google에서 크롤링하지 않은 웹페이지는 검색결과에 표시되지 않습니다. 프로그래밍 검색 엔진에 현재 Google 색인에 없는 사이트를 포함하려면 Google Search Console에 사이트맵을 제출하세요.

사이트맵에는 사이트의 페이지 목록뿐 아니라 웹페이지의 업데이트 빈도와 각 웹페이지의 중요도에 관한 정보가 포함됩니다. 사이트맵을 제출하면 Google에서 웹페이지를 찾고 크롤링 일정을 개선하는 데 도움이 됩니다. 사이트맵에 대해 자세히 알아보려면 웹마스터 도움말 센터사이트맵 프로토콜 사용을 참조하세요. 더욱 정교한 사이트맵을 만들려면 http://www.sitemaps.org/protocol.php를 참조하세요.

사이트맵이 제출되면 사이트가 다음과 같은 경우에 특히 유용합니다.

  • 동적 콘텐츠
  • 풍부한 AJAX 또는 Flash 기능이 있는 페이지와 같이 Googlebot (Google의 웹 크롤러)이 쉽게 검색하지 못하는 웹페이지
  • 연결된 웹사이트가 거의 없습니다.

    Googlebot은 페이지 간에 연결되는 링크를 따라 웹을 크롤링하므로 사이트 링크가 제대로 연결되지 않으면 크롤러가 찾기 어렵습니다. 새로 만든 웹사이트인 경우에는 내 사이트로 연결되는 웹사이트가 많지 않을 수 있습니다.

  • 강력한 교차 링크 네트워크가 없는 콘텐츠 페이지의 대규모 자료실

Google은 액세스할 수 있는 페이지만 색인을 생성할 수 있습니다. 따라서 웹페이지에서 robots.txt 파일 또는 robots 메타 태그를 사용하는 경우 이러한 페이지에서 크롤러를 차단하지 않는지 확인하세요.

페이지가 크롤링되고 색인이 생성되는 데 다소 시간이 걸리므로 노출 범위가 즉시 확대되지는 않습니다. 하지만 색인에 포함된 웹페이지가 Google 검색과 프로그래밍 검색 엔진 모두에 표시될 수 있습니다.

맨 위로

주석 한도

다음 표에는 프로그래밍 검색 엔진에 업로드되는 주석 파일의 한도가 나와 있습니다.

참고: 한도를 준수해야 합니다. 한도를 초과하면 검색엔진에 검색결과가 표시되지 않을 수 있습니다.

특성 한도
파일 크기 (컨텍스트 또는 주석 파일) 30KB
검색엔진당 최대 사이트설정 수 5,000

도움말: 검색엔진의 사이트 수가 한도인 5,000개를 넘으면 개별 URL을 URL 패턴으로 통합하는 것이 좋습니다.

맨 위로