Hướng dẫn này dành cho những quản trị viên chịu trách nhiệm tải xuống, triển khai và duy trì trình lập chỉ mục trình thu thập HTTP Norconex của Google Cloud Search. Bạn phải nắm vững kiến thức cơ bản về Linux, thu thập dữ liệu trên web, XML và Norconex HTTP Collector.
Hướng dẫn này bao gồm các chỉ dẫn để:
- Tải phần mềm trình bổ trợ lập chỉ mục xuống.
- Định cấu hình Cloud Search.
- Định cấu hình Norconex HTTP Collector và hoạt động thu thập dữ liệu trên web.
- Bắt đầu thu thập dữ liệu trên web và tải nội dung lên.
Thông tin về những việc mà quản trị viên Google Workspace phải thực hiện không xuất hiện trong hướng dẫn này. Để biết thông tin về những việc này, hãy xem bài viết Quản lý nguồn dữ liệu bên thứ ba.
Tổng quan về trình bổ trợ trình lập chỉ mục Norconex HTTP Collector
Theo mặc định, Cloud Search có thể khám phá, lập chỉ mục và phân phát nội dung từ các sản phẩm của Google Workspace, chẳng hạn như Google Tài liệu và Gmail. Bạn có thể mở rộng phạm vi này để bao gồm nội dung trên web bằng cách triển khai trình bổ trợ lập chỉ mục cho Norconex HTTP Collector, một trình thu thập dữ liệu web nguồn mở dành cho doanh nghiệp.
Tệp thuộc tính cấu hình
Để cho phép trình bổ trợ thu thập dữ liệu và tải nội dung lên, bạn phải cung cấp thông tin cụ thể trong 2 tệp cấu hình:
{gcs-crawl-config.xml}: chế độ cài đặt cho Trình thu thập HTTP Norconex.sdk-configuration.properties: chế độ cài đặt cho Cloud Search.
Thu thập dữ liệu trên web và tải nội dung lên
Sau khi điền vào các tệp cấu hình, bạn có thể bắt đầu thu thập dữ liệu trên web. Norconex HTTP Collector thu thập dữ liệu trên web và tải nội dung tài liệu văn bản hoặc nhị phân gốc lên Cloud Search Indexing API.
Yêu cầu hệ thống
- Hệ điều hành: Chỉ Linux.
- Phiên bản Norconex: Phiên bản 2.8.0.
- Phần mềm: Java JRE 1.8.
Hỗ trợ ACL
Trình bổ trợ lập chỉ mục hỗ trợ Danh sách kiểm soát quyền truy cập (ACL) để kiểm soát quyền truy cập vào các tài liệu trong miền Google Workspace.
Nếu bạn bật ACL mặc định trong cấu hình trình bổ trợ (defaultAcl.mode được đặt thành một giá trị khác none), thì trình bổ trợ sẽ áp dụng các giá trị mặc định này. Nếu không, trình bổ trợ sẽ cấp quyền đọc cho toàn bộ miền. Xem các tham số trình kết nối do Google cung cấp.
Điều kiện tiên quyết
Trước khi triển khai trình bổ trợ lập chỉ mục, hãy thu thập các thành phần sau:
- Khoá riêng tư của Google Workspace (chứa mã nhận dạng tài khoản dịch vụ). Xem phần Định cấu hình quyền truy cập vào Cloud Search API.
- Mã nguồn dữ liệu Google Workspace. Xem phần Quản lý nguồn dữ liệu bên thứ ba.
Các bước triển khai
- Cài đặt Norconex HTTP Collector và phần mềm trình bổ trợ
- Định cấu hình Cloud Search
- Định cấu hình Trình thu thập HTTP Norconex
- Định cấu hình tính năng thu thập thông tin trên web
- Bắt đầu thu thập dữ liệu trên web và tải nội dung lên
Bước 1: Cài đặt Norconex HTTP Collector và phần mềm bổ trợ
- Tải phần mềm trình cam kết Norconex xuống từ trang tải xuống của Norconex.
- Giải nén phần mềm vào
~/norconex/. Nhân bản trình bổ trợ committer:
git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git cd norconex-committer-pluginKiểm tra phiên bản bạn đã chọn và tạo trình bổ trợ:
git checkout tags/v1-0.0.3 mvn packageĐể bỏ qua các bài kiểm thử, hãy dùng
mvn package -DskipTests.Sao chép tệp JAR vào thư mục Norconex
lib:cp target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-VERSION/libGiải nén tệp ZIP đã tạo:
unzip target/google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3Chạy tập lệnh cài đặt và cung cấp đường dẫn đầy đủ đến thư mục Norconex
lib:sh install.shNếu được nhắc về tệp trùng lặp, hãy chọn biểu tượng
1.
Bước 2: Định cấu hình Cloud Search
Tạo sdk-configuration.properties trong thư mục Norconex. Tệp phải chỉ định các tham số sau:
| Cài đặt | Tham số |
| Mã nguồn dữ liệu | api.sourceId = 1234567890abcdef
Bắt buộc. Mã nguồn do quản trị viên Google Workspace cung cấp. |
| Tài khoản dịch vụ | api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Bắt buộc. Tệp khoá tài khoản dịch vụ. |
Ví dụ sdk-configuration.properties:
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
Bạn cũng có thể thêm các tham số như batch.* để kiểm soát cách trình bổ trợ đẩy dữ liệu. Xem các tham số trình kết nối do Google cung cấp.
Để điền sẵn siêu dữ liệu, hãy định cấu hình các thông số không bắt buộc sau:
| Chế độ cài đặt | Tham số |
| Tiêu đề | itemMetadata.title.field=movieTitle |
| Loại đối tượng giản đồ | itemMetadata.objectType=movie |
Bước 3: Định cấu hình Norconex HTTP Collector
Trình bổ trợ này có một tệp mẫu, minimum-config.xml.
Chuyển sang thư mục Norconex và sao chép mẫu:
cd ~/norconex/norconex-collector-http-VERSION/ cp examples/minimum/minimum-config.xml gcs-crawl-config.xmlChỉnh sửa
gcs-crawl-config.xmlđể thêm hoặc thay thế các nút<committer>và<tagger>:
| Cài đặt | Tham số |
<committer> nút |
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
Bắt buộc. Thêm mã này vào nút <httpcollector>. |
<uploadFormat> |
<uploadFormat>raw</uploadFormat>
Không bắt buộc. raw hoặc text. Giá trị mặc định là raw. |
Ví dụ gcs-crawl-config.xml:
<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
<configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
<uploadFormat>raw</uploadFormat>
</committer>
<importer>
<preParseHandlers>
<tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
</preParseHandlers>
</importer>
Bước 4: Định cấu hình tính năng thu thập dữ liệu trên web
Định cấu hình các nút <crawler> cho phù hợp với nhu cầu của bạn, bao gồm:
- URL bắt đầu
- Độ sâu tối đa của quá trình thu thập dữ liệu
- Số lượng luồng
Bước 5: Bắt đầu thu thập dữ liệu trên web và tải nội dung lên
Chạy trình thu thập ở chế độ cục bộ:
./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml
Theo dõi trình thu thập dữ liệu bằng JEF Monitor
Norconex JEF (Job Execution Framework) Monitor cung cấp chế độ xem đồ hoạ về tiến trình. Xem phần Theo dõi trình thu thập thông tin bằng JEF Monitor.