Apache Nutch 색인 생성기 플러그인 배포

오픈소스 웹 크롤러인 Apache Nutch용 Google Cloud Search 색인 생성기 플러그인을 배포하여 사용자에게 웹 콘텐츠를 제공하도록 Google Cloud Search를 설정할 수 있습니다.

웹 크롤링을 시작하면 Apache Nutch는 웹을 크롤링하고 색인 생성기 플러그인을 사용하여 문서 콘텐츠의 원본 바이너리 (또는 텍스트) 버전을 Google Cloud Search Indexing API에 업로드합니다. Indexing API는 콘텐츠의 색인을 생성하고 사용자에게 결과를 제공합니다.

중요 고려사항

시스템 요건

시스템 요건
운영체제 Linux만 해당:
  • Ubuntu
  • Red Hat Enterprise Linux 5.0
  • SUSE Enterprise Linux 10(64비트)
소프트웨어
  • Apache Nutch 버전 1.15 색인 생성기 플러그인 소프트웨어에 이 버전의 Nutch가 포함되어 있습니다.
  • 색인 생성기 플러그인을 실행할 컴퓨터에 자바 JRE 1.8 설치
Apache Tika 문서 유형 Apache Tika 1.18에서 지원되는 문서 형식

색인 생성기 플러그인 배포

다음 단계에서는 색인 생성기 플러그인을 설치하고 지정된 URL을 크롤링하고 Cloud Search에 결과를 반환하도록 구성요소를 구성하는 방법을 설명합니다.

기본 요건

Cloud Search Apache Nutch 색인 생성기 플러그인을 배포하기 전에 Google Cloud Search와 데이터 소스를 연결하는 데 필요한 정보를 수집합니다.

1단계: 플러그인 소프트웨어와 Apache Nutch 빌드 및 설치

  1. GitHub에서 색인 생성기 플러그인 저장소를 클론합니다.

    $ git clone https://github.com/google-cloudsearch/apache-nutch-indexer-plugin.git
    $ cd apache-nutch-indexer-plugin
  2. 원하는 버전의 색인 생성기 플러그인을 체크아웃합니다.

    $ git checkout tags/v1-0.0.5
  3. 색인 생성기 플러그인을 빌드합니다.

    $ mvn package

    색인 생성기 플러그인을 빌드할 때 테스트를 건너뛰려면 mvn package -DskipTests를 사용합니다.

  4. Apache Nutch 1.15를 다운로드 하고 Apache Nutch 설치 안내를 따릅니다.

  5. 2단계에서 빌드된 target/google-cloudsearch-apache-nutch-indexer-plugin-v1.0.0.5.zip을 폴더에 추출합니다. plugins/indexer-google-cloudsearch 폴더를 Apache Nutch 설치 플러그인 폴더 (apache-nutch-1.15/plugins)에 복사합니다.

2단계: 색인 생성기 플러그인 구성

Apache Nutch 색인 생성기 플러그인을 구성하려면 plugin-configuration.properties라는 파일을 만듭니다.

구성 파일은 Google Cloud Search 데이터 소스에 액세스하는 데 필요한 다음 매개변수를 지정해야 합니다.

설정 매개변수
데이터 소스 ID api.sourceId = 1234567890abcdef
필수사항입니다. Google Workspace 관리자가 색인 생성기 플러그인에 설정한 Google Cloud Search 소스 ID입니다.
서비스 계정 api.serviceAccountPrivateKeyFile = ./PrivateKey.json
필수사항입니다. 색인 생성기 플러그인 접근성을 위해 Google Workspace 관리자가 만든 Google Cloud Search 서비스 계정 키 파일입니다.

다음 예는 필수 매개변수가 포함된 샘플 구성 파일을 보여줍니다.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

구성 파일에는 색인 생성기 플러그인 동작을 제어하는 다른 매개변수도 포함될 수 있습니다. 플러그인이 Cloud Search API(defaultAcl.*batch.*)에 데이터를 푸시하는 방법을 구성할 수 있습니다. 색인 생성기 플러그인이 메타데이터 및 구조화된 데이터를 채우는 방법을 구성할 수도 있습니다.

이러한 매개변수에 대한 설명은 Google 제공 커넥터 매개변수를 참조하세요.

3단계: Apache Nutch 구성

  1. conf/nutch-site.xml를 열고 다음 매개변수를 추가합니다.

    설정 매개변수
    플러그인 포함 plugin.includes = text

    필수. 사용할 플러그인 목록입니다. 여기에는 최소한 다음 정보가 포함되어야 합니다.

    • index-basic
    • index-more
    • indexer-google-cloudsearch
    conf/nutch-default.xml는 이 속성의 기본값을 제공하지만 indexer-google-cloudsearch도 수동으로 추가해야 합니다.
    메타 태그 이름 metatags.names = text

    선택사항입니다. 해당 데이터 소스의 스키마에 있는 속성에 매핑되는 태그의 쉼표로 구분된 목록입니다. 메타태그에 Apache Nutch를 설정하는 방법에 대한 자세한 내용은 Nutch-parse 메타태그를 참조하세요.

    다음 예는 nutch-site.xml에 필요한 수정을 보여줍니다.

    <property>
      <name>plugin.includes</name>
      <value>protocol-(http|httpclient)|urlfilter-regex|index-(basic|more| metadata)|query-(basic|site|url|lang)|indexer-google-cloudsearch|nutch-extensionpoints|parse-(text|html|msexcel|msword|mspowerpoint|pdf|metatags)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|metatags)|index-(basic|anchor|more|metadata)</value>
    </property>
    
  2. conf/index-writers.xml를 열고 다음 섹션을 추가합니다.

    <writer id="indexer_google_cloud_search_1" class="org.apache.nutch.indexwriter.gcs.GoogleCloudSearchIndexWriter">
      <parameters>
        <param name="gcs.config.file" value="path/to/sdk-configuration.properties"/>
      </parameters>
      <mapping>
        <copy />
        <rename />
        <remove />
      </mapping>
    </writer>
    

    <writer> 섹션에는 다음 매개변수가 포함됩니다.

    설정 매개변수
    Google Cloud Search 구성 파일에 대한 경로 gcs.config.file = path

    필수 항목입니다. Google Cloud Search 구성 파일의 전체(절대) 경로입니다.

    업로드 형식 gcs.uploadFormat = text

    선택사항입니다. 색인 생성기 플러그인이 문서 콘텐츠를 Google Cloud Search 색인 생성기 API에 푸시하는 형식입니다. 유효한 값은 다음과 같습니다.

    • raw: 색인 생성기 플러그인이 변환되지 않은 원본 문서 콘텐츠를 푸시합니다.
    • text: 색인 생성기 플러그인이 추출된 텍스트 콘텐츠를 푸시합니다. 기본값은 raw입니다.

4단계: 웹 크롤링 구성

웹 크롤링을 시작하기 전에 크롤링을 구성하여 조직에서 검색결과에 제공하려는 정보만 포함하도록 크롤링을 구성해야 합니다. 이 섹션에서는 개요를 제공합니다. 웹 크롤링을 설정하는 방법에 대한 자세한 내용은 Nutch 가이드를 참조하세요.

  1. 시작 URL을 설정합니다.

    시작 URL은 Apache Nutch 웹 크롤러가 콘텐츠 크롤링을 시작하는 위치를 제어합니다. 시작 URL을 사용하면 링크를 따라 웹 크롤러가 특정 크롤링에 포함하려는 모든 콘텐츠에 도달할 수 있습니다. 시작 URL은 필수 항목입니다.

    시작 URL을 설정하려면 다음 안내를 따르세요.

    1. 작업 디렉터리를 Nutch 설치 디렉터리로 변경합니다.

      $ cd ~/nutch/apache-nutch-X.Y/
    2. URL용 디렉터리를 만듭니다.

      $ mkdir urls
    3. seed.txt라는 파일을 만들고 한 줄에 URL이 1개씩 포함된 URL을 나열합니다.

  2. 준수 및 미준수 규칙을 설정합니다.

    준수 URL 규칙은 어떤 URL이 크롤링되고 Google Cloud Search 색인에 포함되는지 제어합니다. 웹 크롤러는 다음 URL 규칙을 기준으로 URL을 확인합니다. 이 규칙과 일치하는 URL만 크롤링되고 색인이 생성됩니다.

    크롤링 제외 규칙은 URL을 크롤링 및 Google Cloud Search 색인 대상에서 제외합니다. URL에 크롤링 금지 패턴이 있으면 웹 크롤러가 크롤링하지 않습니다.

    크롤링 포함/제외 URL 규칙을 설정하려면 다음 안내를 따르세요.

    1. 작업 디렉터리를 Nutch 설치 디렉터리로 변경합니다.

      $ cd ~/nutch/apache-nutch-X.Y/
    2. 준수/제외 규칙을 변경하려면 conf/regex-urlfilter.txt을(를) 수정합니다. \

      $ nano conf/regex-urlfilter.txt
    3. 다음 예와 같이 '+' 또는 '-' 접두사와 함께 정규 표현식을 입력하여 URL 패턴 및 확장 프로그램을 따르거나 따르지 않습니다. 서술형 표현이 허용됩니다.

      # skip file extensions
      -\.(gif|GIF|jpg|JPG|png|PNG|ico)
      
      # skip protocols (file: ftp: and mailto:)
          -^(file|ftp|mailto):
      
      # allow urls starting with https://support.google.com/gsa/
      +^https://support.google.com/gsa/
      
      # accept anything else
      # (commented out due to the single url-prefix allowed above)
      #+.
      
  3. 크롤링 스크립트를 수정합니다.

    gcs.uploadFormat 매개변수가 누락되었거나 '원시'로 설정된 경우 '-addBinaryContent -base64' 인수를 추가하여 nutch index 명령어에 전달해야 합니다. 이러한 인수는 Nutch 색인 생성기 플러그인을 호출할 때 Nutch 색인 생성기 모듈이 Base64의 바이너리 콘텐츠를 포함하도록 지시합니다. ./bin/크롤링 스크립트에는 기본적으로 이러한 인수가 없습니다.

    1. apache-nutch-1.15/bin에서 crawl 스크립트를 엽니다.
    2. 다음 예와 같이 -addBinaryContent -base64 옵션을 스크립트에 추가합니다.

            if $INDEXFLAG; then
                echo "Indexing $SEGMENT to index"
                __bin_nutch index $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb -addBinaryContent -base64 -linkdb "$CRAWL_PATH"/linkdb "$CRAWL_PATH"/segments/$SEGMENT
      
                echo "Cleaning up index if possible"
                __bin_nutch clean $JAVA_PROPERTIES "$CRAWL_PATH"/crawldb
            else
                echo "Skipping indexing ..."
      

5단계: 웹 크롤링 및 콘텐츠 업로드 시작

색인 생성기 플러그인을 설치하고 설정한 후에는 로컬 모드에서 자체적으로 실행할 수 있습니다. ./bin의 스크립트를 사용하여 크롤링 작업 또는 개별 Nutch 명령어를 실행합니다.

다음 예시에서는 필수 구성요소가 로컬 디렉터리에 있다고 가정합니다. apache-nutch-1.15 디렉터리에서 다음 명령어를 사용하여 Nutch를 실행합니다.

$ bin/crawl -i -s urls/ crawl-test/ 5

크롤링 로그는 std 출력 (터미널) 또는 logs/ 디렉터리에서 제공됩니다. 로깅 출력을 지시하거나 더 자세한 로깅을 수행하려면 conf/log4j.properties을 수정하세요.