Triển khai trình bổ trợ Norconex HTTP Collector Indexer

Hướng dẫn này dành cho những quản trị viên chịu trách nhiệm tải xuống, triển khai và duy trì trình lập chỉ mục trình thu thập HTTP Norconex của Google Cloud Search. Bạn phải nắm vững kiến thức cơ bản về Linux, thu thập dữ liệu trên web, XML và Norconex HTTP Collector.

Hướng dẫn này bao gồm các chỉ dẫn để:

  • Tải phần mềm trình bổ trợ lập chỉ mục xuống.
  • Định cấu hình Cloud Search.
  • Định cấu hình Norconex HTTP Collector và hoạt động thu thập dữ liệu trên web.
  • Bắt đầu thu thập dữ liệu trên web và tải nội dung lên.

Thông tin về những việc mà quản trị viên Google Workspace phải thực hiện không xuất hiện trong hướng dẫn này. Để biết thông tin về những việc này, hãy xem bài viết Quản lý nguồn dữ liệu bên thứ ba.

Tổng quan về trình bổ trợ trình lập chỉ mục Norconex HTTP Collector

Theo mặc định, Cloud Search có thể khám phá, lập chỉ mục và phân phát nội dung từ các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng phạm vi này để bao gồm nội dung trên web bằng cách triển khai trình bổ trợ lập chỉ mục cho Norconex HTTP Collector, một trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.

Tệp thuộc tính cấu hình

Để cho phép trình bổ trợ thu thập dữ liệu và tải nội dung lên, bạn phải cung cấp thông tin cụ thể trong 2 tệp cấu hình:

  • {gcs-crawl-config.xml}: chế độ cài đặt cho Trình thu thập HTTP Norconex.
  • sdk-configuration.properties: chế độ cài đặt cho Cloud Search.

Thu thập dữ liệu trên web và tải nội dung lên

Sau khi điền vào các tệp cấu hình, bạn có thể bắt đầu thu thập dữ liệu trên web. Norconex HTTP Collector thu thập dữ liệu trên web và tải nội dung tài liệu văn bản hoặc nhị phân gốc lên Cloud Search Indexing API.

Yêu cầu hệ thống

  • Hệ điều hành: Chỉ Linux.
  • Phiên bản Norconex: Phiên bản 2.8.0.
  • Phần mềm: Java JRE 1.8.

Hỗ trợ ACL

Trình bổ trợ lập chỉ mục hỗ trợ Danh sách kiểm soát quyền truy cập (ACL) để kiểm soát quyền truy cập vào các tài liệu trong miền Google Workspace.

Nếu bạn bật ACL mặc định trong cấu hình trình bổ trợ (defaultAcl.mode được đặt thành một giá trị khác none), thì trình bổ trợ sẽ áp dụng các giá trị mặc định này. Nếu không, trình bổ trợ sẽ cấp quyền đọc cho toàn bộ miền. Xem các tham số trình kết nối do Google cung cấp.

Điều kiện tiên quyết

Trước khi triển khai trình bổ trợ lập chỉ mục, hãy thu thập các thành phần sau:

Các bước triển khai

  1. Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ
  2. Định cấu hình Cloud Search
  3. Định cấu hình Trình thu thập HTTP Norconex
  4. Định cấu hình tính năng thu thập thông tin trên web
  5. Bắt đầu thu thập dữ liệu trên web và tải nội dung lên

Bước 1: Cài đặt Norconex HTTP Collector và phần mềm bổ trợ

  1. Tải phần mềm trình cam kết Norconex xuống từ trang tải xuống của Norconex.
  2. Giải nén phần mềm vào ~/norconex/.
  3. Nhân bản trình bổ trợ committer:

    git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git
    cd norconex-committer-plugin
    
  4. Kiểm tra phiên bản bạn đã chọn và tạo trình bổ trợ:

    git checkout tags/v1-0.0.3
    mvn package
    

    Để bỏ qua các bài kiểm thử, hãy dùng mvn package -DskipTests.

  5. Sao chép tệp JAR vào thư mục Norconex lib:

    cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/lib
    
  6. Giải nén tệp ZIP đã tạo:

    unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
    cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    
  7. Chạy tập lệnh cài đặt và cung cấp đường dẫn đầy đủ đến thư mục Norconex lib:

    sh install.sh
    

    Nếu được nhắc về tệp trùng lặp, hãy chọn biểu tượng 1.

Bước 2: Định cấu hình Cloud Search

Tạo sdk-configuration.properties trong thư mục Norconex. Tệp phải chỉ định các tham số sau:

Cài đặt Tham số
Mã nguồn dữ liệu api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn do quản trị viên Google Workspace cung cấp.
Tài khoản dịch vụ api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ.

Ví dụ sdk-configuration.properties:

# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json

Bạn cũng có thể thêm các tham số như batch.* để kiểm soát cách trình bổ trợ đẩy dữ liệu. Xem các tham số trình kết nối do Google cung cấp.

Để điền sẵn siêu dữ liệu, hãy định cấu hình các thông số không bắt buộc sau:

Chế độ cài đặt Tham số
Tiêu đề itemMetadata.title.field=movieTitle
Loại đối tượng giản đồ itemMetadata.objectType=movie

Bước 3: Định cấu hình Norconex HTTP Collector

Trình bổ trợ này có một tệp mẫu, minimum-config.xml.

  1. Chuyển sang thư mục Norconex và sao chép mẫu:

    cd ~/norconex/norconex-collector-http-VERSION/
    cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
    
  2. Chỉnh sửa gcs-crawl-config.xml để thêm hoặc thay thế các nút <committer><tagger>:

Cài đặt Tham số
<committer> nút <committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Bắt buộc. Thêm mã này vào nút <httpcollector>.
<uploadFormat> <uploadFormat>raw</uploadFormat>
Không bắt buộc. raw hoặc text. Giá trị mặc định là raw.

Ví dụ gcs-crawl-config.xml:

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

Bước 4: Định cấu hình tính năng thu thập dữ liệu trên web

Định cấu hình các nút <crawler> cho phù hợp với nhu cầu của bạn, bao gồm:

  • URL bắt đầu
  • Độ sâu tối đa của quá trình thu thập dữ liệu
  • Số lượng luồng

Xem trang cấu hình Norconex.

Bước 5: Bắt đầu thu thập dữ liệu trên web và tải nội dung lên

Chạy trình thu thập ở chế độ cục bộ:

./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Theo dõi trình thu thập dữ liệu bằng JEF Monitor

Norconex JEF (Job Execution Framework) Monitor cung cấp chế độ xem đồ hoạ về tiến trình. Xem phần Theo dõi trình thu thập thông tin bằng JEF Monitor.