Tham số cấu hình do Google cung cấp

Mỗi trình kết nối có một tệp cấu hình liên kết chứa các tham số mà trình kết nối sử dụng, chẳng hạn như mã nhận dạng cho kho lưu trữ của bạn. Các tham số được xác định là cặp khoá-giá trị, chẳng hạn như api.sourceId=1234567890abcdef.

SDK Google Cloud Search chứa một số tham số cấu hình do Google cung cấp được nhiều trình kết nối sử dụng. Trong các thông số cấu hình do Google cung cấp, bạn chỉ cần xác định thông số Quyền truy cập vào nguồn dữ liệu trong tệp cấu hình. Bạn không cần xác định lại các tham số do Google cung cấp trong tệp cấu hình trừ phi bạn muốn ghi đè giá trị mặc định của các tham số đó.

Tài liệu tham khảo này mô tả các tham số cấu hình do Google cung cấp.

Ví dụ về tệp cấu hình

Ví dụ sau đây cho thấy một tệp cấu hình danh tính với các cặp khoá-giá trị của thông số.

#
# Configuration file sample
#
api.sourceId=1234567890abcdef
api.identitySourceId=0987654321lmnopq
api.serviceAccountPrivateKeyFile= ./PrivateKey.json

#
# Traversal schedules
#
schedule.traversalIntervalSecs=7200
schedule.incrementalTraversalIntervalSecs=600
#
# Default ACLs
#
defaultAcl.mode=fallback
defaultAcl.public=true
  

Những tham số thường được thiết lập

Phần này liệt kê các tham số cấu hình thường được thiết lập bắt buộc và không bắt buộc. Nếu bạn không thay đổi giá trị cho các thông số không bắt buộc, trình kết nối sẽ sử dụng các giá trị mặc định do SDK cung cấp.

Truy cập nguồn dữ liệu

Bảng sau đây liệt kê tất cả tham số bắt buộc phải có để xuất hiện trong tệp cấu hình. Các tham số bạn sử dụng phụ thuộc vào loại trình kết nối mà bạn đang tạo (trình kết nối nội dung hoặc trình kết nối danh tính).

Xem xét Thông số
Mã nguồn dữ liệu api.sourceId=1234567890abcdef

Trình kết nối yêu cầu tham số này để xác định vị trí kho lưu trữ của bạn. Bạn nhận được giá trị này khi thêm một nguồn dữ liệu vào công cụ tìm kiếm. Thông số này phải có trong tệp cấu hình trình kết nối.

Mã nguồn nhận dạng api.identitySourceId=0987654321lmnopq

Các trình kết nối danh tính yêu cầu tham số này để xác định vị trí của nguồn nhận dạng bên ngoài. Bạn nhận được giá trị này khi liên kết danh tính người dùng trong Cloud Search. Tham số này phải có trong tất cả các tệp cấu hình của trình kết nối danh tính.

Tệp khoá riêng tư của tài khoản dịch vụ api.serviceAccountPrivateKeyFile=./PrivateKey.json

Tham số này chứa khoá riêng tư cần thiết để truy cập vào kho lưu trữ. Bạn nhận được giá trị này khi định cấu hình quyền truy cập vào API REST của Google Cloud Search. Thông số này phải có trong tất cả các tệp cấu hình.

Mã tài khoản dịch vụ api.serviceAccountId=123abcdef4567890

Tham số này chỉ định mã tài khoản dịch vụ. Bạn chỉ được phép sử dụng giá trị chuỗi trống mặc định khi tệp cấu hình chỉ định tham số tệp khoá riêng tư. Bạn phải sử dụng tham số này nếu tệp khoá riêng tư của bạn không phải là khoá JSON.

Mã tài khoản Google Workspace api.customerId=123abcdef4567890

Tham số này chỉ định mã tài khoản cho tài khoản Google Workspace của doanh nghiệp. Bạn nhận được giá trị này khi liên kết danh tính người dùng trong Cloud Search. Bạn phải sử dụng tham số này khi đồng bộ hoá người dùng bằng trình kết nối danh tính.

URL gốc api.rootUrl=baseURLPath

Tham số này chỉ định đường dẫn URL cơ sở của dịch vụ lập chỉ mục.

Giá trị mặc định cho tham số này là một chuỗi trống được chuyển đổi thành https://cloudsearch.googleapis.com.

Lịch biểu truyền tải

Các thông số lập lịch xác định tần suất trình kết nối đợi giữa các lần truyền tải.

Xem xét Thông số
Truyền tải xuống toàn bộ khi khởi động trình kết nối schedule.performTraversalOnStart=true|false

Trình kết nối thực hiện truyền tải toàn bộ khi khởi động trình kết nối, thay vì đợi khoảng thời gian đầu tiên hết hạn. Giá trị mặc định là true.

Truyền tải xuống toàn bộ sau một khoảng thời gian schedule.traversalIntervalSecs=intervalInSeconds

Trình kết nối thực hiện truyền tải toàn bộ sau một khoảng thời gian đã chỉ định. Chỉ định khoảng thời gian giữa các lần truyền tải tính bằng giây. Giá trị mặc định là 86400 (số giây trong một ngày).

Thoát sau một lần truyền tải connector.runOnce=true|false

Trình kết nối chạy truyền tải toàn bộ một lần, sau đó thoát. Bạn chỉ nên thiết lập tham số này thành true nếu đang sử dụng chiến lược truyền tải đầy đủ. Các chiến lược liệt kê và biểu đồ yêu cầu nhiều lần truyền tải để phát hiện các thay đổi và lập chỉ mục nội dung. Giá trị mặc định là false (không thoát sau khi truyền một lần).

Truyền tải tăng dần sau một khoảng thời gian schedule.incrementalTraversalIntervalSecs=intervalInSeconds

Trình kết nối thực hiện truyền tải tăng dần sau một khoảng thời gian đã chỉ định. Chỉ định khoảng thời gian giữa các lần truyền tải tính bằng giây. Giá trị mặc định là 300 (số giây trong 5 phút).

Khoảng thời gian trong hàng đợi của cuộc thăm dò ý kiến đã lên lịch schedule.pollQueueIntervalSecs=interval_in_seconds

Khoảng thời gian giữa các khoảng thời gian trong hàng đợi của cuộc thăm dò ý kiến đã lên lịch (tính bằng giây). Chỉ trình kết nối truyền tải danh sách mới sử dụng được tính năng này. Giá trị mặc định là 10.

Danh sách kiểm soát quyền truy cập

Trình kết nối kiểm soát quyền truy cập vào các mục bằng cách sử dụng các ACL. Nhiều tham số cho phép bạn bảo vệ quyền truy cập của người dùng vào các bản ghi đã được lập chỉ mục bằng ACL.

Nếu kho lưu trữ của bạn có thông tin ACL riêng lẻ liên kết với từng mục, hãy tải tất cả thông tin ACL lên để kiểm soát quyền truy cập vào mục trong Cloud Search. Nếu kho lưu trữ của bạn cung cấp một phần hoặc không cung cấp thông tin ACL, bạn có thể cung cấp thông tin ACL mặc định trong các tham số sau mà SDK cung cấp cho trình kết nối.

Xem xét Thông số
Chế độ ACL defaultAcl.mode=mode

Xác định thời điểm áp dụng Danh sách kiểm soát quyền truy cập (ACL) mặc định. Giá trị hợp lệ:

  • none: không sử dụng ACL mặc định (ở chế độ này, bạn sẽ không thể tìm kiếm được bản ghi trừ phi bạn xác định các ACL riêng lẻ)
  • fallback: chỉ sử dụng ACL mặc định nếu chưa có ACL nào
  • append: thêm ACL mặc định vào ACL hiện có
  • override: thay thế ACL hiện tại bằng ACL mặc định

Chế độ mặc định là none.

Danh sách kiểm soát quyền truy cập (ACL) công khai mặc định defaultAcl.public=true|false

Danh sách kiểm soát quyền truy cập (ACL) mặc định dùng cho toàn bộ kho lưu trữ được đặt thành quyền truy cập miền công cộng. Giá trị mặc định là false.

Các trình đọc nhóm ACL phổ biến defaultAcl.readers.groups=google:group1@mydomain.com, group2
Các trình đọc ACL phổ biến defaultAcl.readers.users=user1, user2, google:user3@mydomain.com
Trình đọc nhóm bị từ chối thường gặp trong Danh sách kiểm soát quyền truy cập (ACL) defaultAcl.denied.groups=group3
Người đọc chung bị từ chối Acl defaultAcl.denied.users=user4, user5
Toàn quyền truy cập miền Để chỉ định rằng mọi người dùng trong miền đều có thể truy cập công khai vào mọi bản ghi đã lập chỉ mục, hãy đặt cả hai thông số sau đây bằng các giá trị:
  • defaultAcl.mode=override
  • defaultACL.public=true
Danh sách kiểm soát quyền truy cập (ACL) được xác định phổ biến Để chỉ định một ACL cho mỗi bản ghi của kho lưu trữ dữ liệu, hãy đặt tất cả các giá trị tham số sau:
  • defaultAcl.mode=fallback
  • defaultAcl.public=false
  • defaultAcl.readers.groups=google:group1@mydomain.com, group2 code>
  • defaultAcl.readers.users=user1@mydomain.com, user2, google:user3@mydomain.com
  • defaultAcl.denied.groups=group3
  • defaultAcl.denied.users=user4, user5

    Mọi người dùng và nhóm đã chỉ định được giả định là một người dùng/nhóm được xác định theo miền cục bộ, trừ phi có tiền tố là "google:" (hằng số bằng chữ).

    Người dùng hoặc nhóm mặc định là một chuỗi trống. Chỉ cung cấp các tham số nhóm và người dùng nếu đặt defaultAcl.public thành false. Để liệt kê nhiều nhóm và người dùng, hãy sử dụng danh sách được phân tách bằng dấu phẩy.

    Nếu bạn đặt defaultAcl.mode thành none, thì bạn sẽ không thể tìm kiếm được các bản ghi nếu không có các ACL riêng lẻ đã xác định.

Tham số cấu hình siêu dữ liệu

Bạn có thể định cấu hình một số siêu dữ liệu của mặt hàng. Trình kết nối có thể đặt các trường siêu dữ liệu có thể định cấu hình trong quá trình lập chỉ mục. Nếu trình kết nối không đặt trường, thì các tham số trong tệp cấu hình của bạn sẽ được dùng để đặt trường đó.

Tệp cấu hình có một loạt tham số cấu hình siêu dữ liệu được đặt tên biểu thị bằng một hậu tố .field, chẳng hạn như itemMetadata.title.field=movieTitle. Nếu có một giá trị cho các tham số này, thì giá trị đó sẽ được dùng để định cấu hình trường siêu dữ liệu. Nếu không có giá trị cho tham số siêu dữ liệu đã đặt tên, thì siêu dữ liệu sẽ được định cấu hình bằng cách sử dụng tham số có hậu tố .defaultValue).

Bảng sau đây trình bày các tham số cấu hình siêu dữ liệu.

Chế độ cài đặt Tham số
Tiêu đề itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Tên mặt hàng. Nếu bạn không đặt title.field thành một giá trị, thì giá trị của title.defaultValue sẽ được sử dụng.
URL kho lưu trữ nguồn itemMetadata.sourceRepositoryUrl.field=url
itemMetadata.sourceRepositoryUrl.defaultValue=https://www.imdb.com/title/tt0031381/
URL của mục được sử dụng trong kết quả tìm kiếm. Bạn có thể chỉ cần đặt defaultValue để lưu giữ một URL cho toàn bộ kho lưu trữ, chẳng hạn như nếu đại diện của bạn là một tệp CSV và chỉ có một URL cho mỗi mục. Nếu bạn không đặt sourceRepositoryUrl.field thành một giá trị, thì giá trị của sourceRepositoryUrl.defaultValue sẽ được sử dụng.
Tên vùng chứa itemMetadata.containerName.field=containerName
itemMetadata.containerName.defaultValue=myDefaultContainerName
Tên vùng chứa của mục, chẳng hạn như tên của thư mục hệ thống tệp hoặc thư mục. Nếu bạn không đặt containerName.field thành một giá trị, thì giá trị của containerName.defaultValue sẽ được sử dụng.
Loại đối tượng itemMetadata.objectType.field=type
itemMetadata.objectType.defaultValue=movie
Loại đối tượng mà trình kết nối sử dụng, như xác định trong giản đồ. Trình kết nối sẽ không lập chỉ mục bất kỳ dữ liệu có cấu trúc nào nếu bạn không chỉ định thuộc tính này.
Nếu bạn không đặt objectType.field thành một giá trị, thì giá trị của objectType.defaultValue sẽ được sử dụng.
Thời gian tạo itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Dấu thời gian tạo tài liệu. Nếu bạn không đặt createTime.field thành một giá trị, thì giá trị của createTime.defaultValue sẽ được sử dụng.
Thời gian cập nhật itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
Dấu thời gian sửa đổi gần đây nhất đối với mặt hàng. Nếu bạn không đặt updateTime.field thành một giá trị, thì giá trị của updateTime.defaultValue sẽ được sử dụng.
Ngôn ngữ của nội dung itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Ngôn ngữ nội dung của tài liệu được lập chỉ mục. Nếu bạn không đặt contentLanguage.field thành một giá trị, thì giá trị của contentLanguage.defaultValue sẽ được sử dụng.
Loại Mime itemMetadata.mimeType.field=mimeType
itemMetadata.mimeType.defaultValue=image/bmp
Loại mime ban đầu của ItemContent.content trong kho lưu trữ nguồn. Độ dài tối đa là 256 ký tự. Nếu bạn không đặt mimeType.field thành một giá trị, thì giá trị của mimeType.defaultValue sẽ được sử dụng.
Siêu dữ liệu về chất lượng tìm kiếm itemMetadata.searchQualityMetadata.quality.field=quality
itemMetadata.searchQualityMetadata.quality.defaultValue=1
Chỉ báo chất lượng của mặt hàng dùng để tác động đến chất lượng tìm kiếm. Giá trị phải nằm trong khoảng từ 0 (chất lượng thấp nhất) đến 1 (chất lượng cao nhất). Giá trị mặc định là 0.0. Nếu bạn không đặt quality.field thành một giá trị, thì giá trị của quality.defaultValue sẽ được sử dụng.
Hàm băm itemMetadata.hash.field=hash
itemMetadata.hash.defaultValue=f0fda58630310a6dd91a7d8f0a4ceda2
Giá trị băm do phương thức gọi API cung cấp. Bạn có thể sử dụng tính năng này với phương thức items.push để tính toán trạng thái đã sửa đổi. Độ dài tối đa là 2.048 ký tự. Nếu bạn không đặt hash.field thành một giá trị, thì giá trị của hash.defaultValue sẽ được sử dụng.

Định dạng ngày giờ

Định dạng ngày giờ chỉ định định dạng dự kiến trong các thuộc tính siêu dữ liệu. Nếu tệp cấu hình không chứa tham số này, thì các giá trị mặc định sẽ được sử dụng. Bảng sau đây cho thấy thông số này.

Chế độ cài đặt Tham số
Định dạng ngày giờ bổ sung structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX
Danh sách các mẫu java.time.format.DateTimeFormatter bổ sung được phân tách bằng dấu chấm phẩy. Các mẫu này được dùng khi phân tích cú pháp các giá trị chuỗi của bất kỳ trường ngày hoặc giờ nào trong siêu dữ liệu hoặc giản đồ. Giá trị mặc định là danh sách trống nhưng các định dạng RFC 3339 và RFC 1123 luôn được hỗ trợ.

Dữ liệu có cấu trúc

API Lập chỉ mục Cloud Search cung cấp dịch vụ giản đồ mà bạn có thể dùng để tuỳ chỉnh cách Cloud Search lập chỉ mục và phân phát dữ liệu. Nếu đang sử dụng giản đồ kho lưu trữ cục bộ, bạn phải chỉ định tên giản đồ cục bộ chứa dữ liệu có cấu trúc.

Xem xét Thông số
Tên giản đồ cục bộ structuredData.localSchema=mySchemaName

Tên giản đồ được đọc từ nguồn dữ liệu và được dùng cho dữ liệu có cấu trúc kho lưu trữ.

Giá trị mặc định là một chuỗi trống.

Nội dung và chất lượng tìm kiếm

Đối với những kho lưu trữ chứa bản ghi hoặc nội dung dựa trên trường (chẳng hạn như CRM, CVS hoặc cơ sở dữ liệu), SDK cho phép định dạng HTML tự động cho các trường dữ liệu. Trình kết nối của bạn xác định các trường dữ liệu khi bắt đầu thực thi trình kết nối, sau đó sử dụng mẫu nội dung để định dạng từng bản ghi dữ liệu trước khi tải lên Cloud Search.

Mẫu nội dung xác định mức độ quan trọng của từng giá trị trường được tìm kiếm. Trường HTML <title> là bắt buộc và được xác định là có mức độ ưu tiên cao nhất. Bạn có thể chỉ định mức độ quan trọng của chất lượng tìm kiếm cho tất cả các trường nội dung khác: cao, trung bình hoặc thấp. Bất kỳ trường nội dung nào không được xác định trong một danh mục cụ thể sẽ được mặc định có mức độ ưu tiên thấp.

Xem xét Thông số
Tiêu đề HTML của nội dung contentTemplate.templateName.title=myTitleField

Trường tiêu đề HTML nội dung và chất lượng tìm kiếm cao nhất. Tham số này chỉ bắt buộc nếu bạn đang sử dụng một mẫu nội dung HTML. Giá trị mặc định là một chuỗi trống.

Chất lượng tìm kiếm cao cho các trường nội dung contentTemplate.templateName.quality.high=hField1,hField2

Các trường nội dung có mức độ ưu tiên tìm kiếm cao. Giá trị mặc định là một chuỗi trống.

Chất lượng tìm kiếm trung bình cho trường nội dung contentTemplate.templateName.quality.medium=mField1,mField2

Các trường nội dung sẽ có mức độ ưu tiên tìm kiếm trung bình. Giá trị mặc định là một chuỗi trống.

Trường nội dung có chất lượng tìm kiếm thấp contentTemplate.templateName.quality.low=lField1,lField2

Các trường nội dung có mức độ ưu tiên tìm kiếm thấp. Giá trị mặc định là một chuỗi trống.

Trường nội dung chưa được chỉ định contentTemplate.templateName.unmappedColumnsMode=value

Cách trình kết nối xử lý các trường nội dung không xác định. Các giá trị hợp lệ là:

  • APPEND—thêm các trường nội dung chưa được chỉ định vào mẫu
  • IGNORE — bỏ qua các trường nội dung chưa chỉ định

    Giá trị mặc định là APPEND.

Bao gồm tên trường trong mẫu HTML contentTemplate.templateName.includeFieldName=true|false

Chỉ định xem có đưa tên trường cùng với dữ liệu trường vào mẫu HTML hay không. Giá trị mặc định là true và khiến tên trường có thể tìm kiếm được trong dữ liệu nội dung.

Đặt tham số không thường xuyên

Bạn hiếm khi cần phải thiết lập các tham số được liệt kê trong phần này. Các giá trị mặc định của các thông số được đặt để có hiệu suất tối ưu. Bạn không nên đặt những tham số này thành các giá trị khác với giá trị mặc định nếu không có yêu cầu cụ thể trong kho lưu trữ của mình.

Cấu hình proxy

SDK cho phép bạn định cấu hình trình kết nối của mình để sử dụng proxy cho các kết nối đi.

Các tham số transport.proxy.hostnametransport.proxy.port là bắt buộc để bật việc truyền tải qua proxy. Bạn có thể phải cung cấp các tham số khác nếu proxy yêu cầu xác thực hoặc hoạt động qua giao thức SOCKS thay vì HTTP. Nếu bạn không đặt transport.proxy.hostname, SDK sẽ không sử dụng proxy.

Xem xét Thông số
Tên máy chủ transport.proxy.hostname=hostname

Tên máy chủ cho máy chủ proxy. Bạn phải sử dụng tham số này khi sử dụng proxy.

Cổng transport.proxy.port=port

Số cổng cho máy chủ proxy. Bạn phải sử dụng tham số này khi sử dụng proxy.

Loại proxy transport.proxy.type=type

Loại proxy. Các giá trị hợp lệ là:

  • HTTP – Proxy chấp nhận và chuyển tiếp các yêu cầu qua HTTP.
  • SOCKS – Proxy chấp nhận và chuyển tiếp các gói qua giao thức SOCKS.

Giá trị mặc định là HTTP.

Tên người dùng transport.proxy.username=username

Tên người dùng để sử dụng khi tạo mã thông báo uỷ quyền proxy. Tham số này là không bắt buộc và chỉ nên đặt nếu proxy của bạn yêu cầu xác thực.

Mật khẩu transport.proxy.password=password

Mật khẩu sẽ sử dụng khi tạo mã thông báo uỷ quyền proxy. Tham số này là không bắt buộc và chỉ nên đặt nếu proxy của bạn yêu cầu xác thực.

Người di chuyển

SDK cho phép bạn chỉ định nhiều trình truyền tải riêng lẻ để cho phép truyền tải song song một kho lưu trữ dữ liệu. Trình kết nối mẫu SDK sử dụng tính năng này.

Xem xét Thông số
Kích thước nhóm chuỗi traverse.threadPoolSize=size

Số luồng mà trình kết nối tạo ra để cho phép xử lý song song. Một trình lặp duy nhất tìm nạp các hoạt động theo tuần tự (thường là các đối tượng RepositoryDoc), nhưng API gọi các quy trình song song bằng cách sử dụng số lượng luồng này.

Giá trị mặc định là 5.

Kích thước phân vùng traverse.partitionSize=batchSize

Số lượng ApiOperation() sẽ được xử lý theo lô trước khi tìm nạp thêm APIOperation.

Giá trị mặc định là 50.

Yêu cầu thăm dò ý kiến của người chuyển đổi

Trọng tâm của hàng đợi lập chỉ mục trên Cloud Search là một hàng đợi ưu tiên chứa mục nhập của từng mục đã được xác định là tồn tại. Trình kết nối trang thông tin có thể yêu cầu thăm dò ý kiến các mục qua API lập chỉ mục. Yêu cầu thăm dò ý kiến sẽ nhận những mục nhập có mức độ ưu tiên cao nhất trong hàng đợi lập chỉ mục.

Các tham số sau được mẫu trình kết nối trang thông tin SDK sử dụng để xác định các tham số thăm dò ý kiến.

Xem xét Thông số
Truyền tải kho lưu trữ repository.traversers=t1, t2, t3, ...

Tạo một hoặc nhiều trình truyền tải riêng lẻ, trong đó t1, t2, t3, ... là tên riêng biệt của từng trình duyệt. Mỗi trình truyền tải có tên có một tập hợp chế độ cài đặt riêng được xác định bằng tên duy nhất của trình truyền tải đó, chẳng hạn như traversers.t1.hostloadtraversers.t2.hostload.

Xếp hàng để được thăm dò ý kiến traverser.pollRequest.queue=mySpecialQueue

Tên hàng đợi mà trình duyệt này thăm dò ý kiến. Giá trị mặc định là chuỗi trống (tức là "mặc định").

traverser.t1.pollRequest.queue=mySpecialQueue

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình truyền tải cụ thể).

Hành vi thăm dò ý kiến traverser.pollRequest.limit=maxItems

Số lượng mục tối đa cần trả về từ một yêu cầu thăm dò ý kiến. Giá trị mặc định là 0 (tức là giá trị tối đa của API).

traverser.t1.pollRequest.limit=limit

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình truyền tải cụ thể).

Trạng thái của mục traverser.pollRequest.statuses=statuses

Trạng thái của mục cụ thể mà trình truyền tải này thăm dò ý kiến, trong đó statuses có thể là bất kỳ tổ hợp MODIFIED, NEW_ITEM nào (phân tách bằng dấu phẩy), mặc định là chuỗi trống (tức là tất cả các giá trị trạng thái).

traverser.t1.pollRequest.statuses=statusesForThisTraverser

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình chuyển tải cụ thể).

Tải máy chủ traverser.hostload=threads

Số lượng chuỗi song song đang hoạt động tối đa để thăm dò ý kiến. Giá trị mặc định là 5.

traverser.t1.hostload=threadsForThisTraverser

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình chuyển tải cụ thể).

Lần bị tạm ngừng traverser.timeout=timeout

Giá trị thời gian chờ làm gián đoạn cuộc thăm dò ý kiến dạng truyền tải này.

Giá trị mặc định là 60.

traverser.t1.timeout=timeoutForThisTraverser

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình chuyển tải cụ thể).

traverser.timeunit=timeoutUunit

Đơn vị thời gian chờ. Các giá trị hợp lệ là SECONDS, MINUTES,

traverser.t1.timeunit=timeoutUnit

Khi bạn có nhiều trình chuyển tải, hãy đặt trạng thái của mục cho từng trình truyền tải (trong đó t1, đại diện cho một trình chuyển tải cụ thể).

Trong hầu hết các trường hợp, trình kết nối sử dụng mẫu trình kết nối trang thông tin SDK chỉ yêu cầu một bộ tham số duy nhất để thăm dò ý kiến. Trong một số trường hợp, bạn có thể cần xác định nhiều tiêu chí thăm dò ý kiến nếu thuật toán truyền tải của bạn yêu cầu phân tách quá trình xử lý mục bằng nhiều hàng đợi, chẳng hạn.

Trong trường hợp này, bạn có thể xác định nhiều nhóm thông số thăm dò. Bắt đầu bằng cách chỉ định tên của các tập hợp thông số bằng cách sử dụng repository.traversers. Đối với mỗi tên trình truyền tải đã xác định, hãy cung cấp tệp cấu hình với các tham số trong bảng ở trên thay thế t1 bằng tên trình truyền tải. Thao tác này sẽ tạo ra một tập hợp các thông số thăm dò cho từng trình truyền tải đã xác định.

Chốt kiểm tra

Điểm kiểm tra rất hữu ích cho việc theo dõi trạng thái của quá trình truyền tải gia tăng.

Xem xét Thông số
Thư mục Checkpoint connector.checkpointDirectory=/path/to/checkpoint

Chỉ định đường dẫn đến thư mục cục bộ để sử dụng cho các điểm kiểm tra truyền tải tăng dần và đầy đủ.

Nội dung tải lên

Nội dung mục sẽ được tải lên Cloud Search cùng với mục đó khi kích thước của nội dung không vượt quá ngưỡng chỉ định. Nếu kích thước của nội dung vượt quá ngưỡng này, thì nội dung sẽ được tải lên riêng biệt với siêu dữ liệu và dữ liệu có cấu trúc của mục.

Xem xét Thông số
Ngưỡng nội dung api.contentUploadThresholdBytes=bytes

Ngưỡng đối với nội dung xác định xem nội dung được tải lên "cùng dòng" với mặt hàng hay được sử dụng một nội dung tải lên riêng biệt.

Giá trị mặc định là 100000 (~100 KB).

Vùng chứa

Mẫu trình kết nối đầy đủ sử dụng một thuật toán liên quan đến khái niệm về nút bật/tắt hàng đợi nguồn dữ liệu tạm thời để phát hiện các bản ghi đã xoá trong cơ sở dữ liệu. Tức là sau mỗi lần truyền tải đầy đủ, những bản ghi đã tìm nạp nằm trong hàng đợi mới sẽ thay thế toàn bộ bản ghi Cloud Search hiện có đã được lập chỉ mục từ lần truyền tải trước đó. Đây là những bản ghi nằm trong hàng đợi cũ.

Xem xét Thông số
Thẻ tên vùng chứa traverse.queueTag=instance

Để chạy nhiều phiên bản của trình kết nối song song nhằm lập chỉ mục một kho lưu trữ dữ liệu chung (cho dù là trên nhiều kho lưu trữ dữ liệu hay các phần riêng biệt của một kho lưu trữ dữ liệu chung) mà không gây cản trở cho nhau, hãy chỉ định một thẻ tên vùng chứa duy nhất cho mỗi lần chạy của trình kết nối. Thẻ tên riêng biệt ngăn thực thể trình kết nối xoá các bản ghi của người dùng khác.

Thẻ tên được nối vào mã hàng đợi bật/tắt Trình kết nối truyền tải đầy đủ.

Tắt tính năng phát hiện thao tác xoá traverse.useQueues=true|false

Cho biết liệu trình kết nối có sử dụng logic bật/tắt hàng đợi để phát hiện thao tác xoá hay không.

Giá trị mặc định là true, chỉ định rằng cần sử dụng hàng đợi.

Lưu ý: Tham số cấu hình này chỉ áp dụng cho những trình kết nối triển khai mẫu FullTraversalConnector.

Chính sách theo lô

SDK hỗ trợ một chính sách hàng loạt cho phép bạn thực hiện các thao tác sau:

  • Yêu cầu theo lô
  • Chỉ định số lượng yêu cầu trong hàng đợi theo lô
  • Quản lý các lô thực thi đồng thời
  • Xoá yêu cầu theo lô

SDK sẽ gộp nhóm các yêu cầu của trình kết nối để tăng tốc độ thông qua trong khi tải lên. Trình kích hoạt SDK để tải một loạt yêu cầu lên được tính theo số lượng yêu cầu hoặc thời gian chờ, tuỳ theo điều kiện nào đến trước. Ví dụ: nếu đã hết thời gian trễ của lô mà không đạt đến kích thước lô hoặc nếu số lượng mặt hàng đã đạt đến số lượng mặt hàng trước khi hết thời gian trễ, thì quá trình tải lên theo lô sẽ được kích hoạt.

Xem xét Thông số
Yêu cầu theo lô batch.batchSize=batchSize

Thực hiện các yêu cầu theo lô cùng nhau. Giá trị mặc định là 10.

Số lượng yêu cầu trong hàng đợi theo lô batch.maxQueueLength=maxQueueLength

Số lượng yêu cầu tối đa trong một hàng đợi thực thi của lô. Giá trị mặc định là 1000.

Đồng thời thực thi các lô batch.maxActiveBatches=maxActiveBatches

Số lượng lô được phép thực thi đồng thời. Giá trị mặc định là 20.

Tự động xoá các yêu cầu theo lô batch.maxBatchDelaySeconds=maxBatchDelay

Số giây chờ trước khi yêu cầu theo lô được tự động xoá. Giá trị mặc định là 5.

Xoá các yêu cầu theo lô khi tắt batch.flushOnShutdown=true|false

Xoá các yêu cầu theo lô trong khi tắt dịch vụ. Giá trị mặc định là true

Trình xử lý ngoại lệ

Các tham số của trình xử lý ngoại lệ xác định cách trình truyền tải xử lý sau khi gặp một ngoại lệ.

Xem xét Thông số
Hướng dẫn chuyển tải trong trường hợp lỗi traverse.exceptionHandler=exceptions

Cách trình truyền tải sẽ tiến hành sau khi gửi một ngoại lệ. Các giá trị hợp lệ là:

  • 0--luôn huỷ truyền tải sau khi gặp ngoại lệ
  • num_exceptions (ví dụ: 10) – huỷ sau khi trình chuyển tải gặp num_exceptions đã chỉ định.

    Giá trị mặc định là 0 (luôn huỷ khi có lỗi).

  • ignore--bỏ qua lỗi
Thời gian chờ giữa các trường hợp ngoại lệ abortExceptionHander.backoffMilliSeconds=backoff

Thời gian đợi tính bằng mili giây để chờ giữa các trường hợp ngoại lệ của trình xử lý được phát hiện (thường dùng khi truyền tải một kho lưu trữ). Giá trị mặc định là 10.