Bir Norconex HTTP Toplayıcı Dizine Ekleme Eklentisi'ni Dağıtma

Bu kılavuz, Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi yöneticilerine, diğer bir deyişle, dizine ekleme eklentisini indirme, dağıtma, yapılandırma ve sürdürmeden sorumlu olan kişiler için hazırlanmıştır. Bu kılavuzda, Linux işletim sistemleri, web taramayla ilgili temel bilgiler, XML ve Norconex HTTP Toplayıcı hakkında bilgi sahibi olduğunuz varsayılmaktadır.

Bu kılavuz, dizine ekleme eklentisi dağıtımıyla ilgili temel görevlerin yerine getirilmesine yönelik talimatları içerir:

  • Dizine ekleme eklentisi yazılımını indirme
  • Google Cloud Search'ü yapılandırma
  • Norconex HTTP Toplayıcı ve web taramasını yapılandırma
  • Web'de taramayı başlatma ve içerik yükleme

Google Cloud Search'ün Norconex HTTP Toplayıcı dizine ekleme eklentisiyle eşlenmesi için yerine getirmesi gereken görevlerle ilgili bilgiler bu kılavuzda görünmez. Bu görevler hakkında bilgi edinmek için Üçüncü taraf veri kaynaklarını yönetme başlıklı makaleyi inceleyin.

Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisine genel bakış

Google Cloud Search, varsayılan olarak Google Dokümanlar ve Gmail gibi Google Workspace ürünlerinden içerikleri keşfedebilir, dizine ekleyebilir ve sunabilir. Google Cloud Search'ün erişimini, açık kaynaklı bir kuruluş olan Norconex HTTP Collector için dizine ekleme eklentisini dağıtarak kullanıcılarınıza web içeriği sunmayı içerecek şekilde genişletebilirsiniz oluşturun.

Yapılandırma özellikleri dosyaları

Dizine ekleme eklentisinin web taramaları gerçekleştirmesine ve dizine ekleme API'sine içerik yüklemesine izin vermek için dizinci eklentisi yöneticisi olarak bu belgede açıklanan yapılandırma adımları sırasında belirli bilgileri sağlarsınızDağıtım adımları ,

Dizine ekleme eklentisini kullanmak için özellikleri iki yapılandırma dosyasında ayarlamanız gerekir:

  • {gcs-crawl-config.xml}-- Norconex HTTP Collector için ayarları içerir.
  • sdk-configuration.properties-- Google Cloud Search ayarlarını içerir.

Her bir dosyadaki özellikler, Google Cloud Search dizine ekleme eklentisini ve Norconex HTTP Toplayıcı'nın birbiriyle iletişim kurmasını sağlar.

Web tarama ve içerik yükleme

Yapılandırma dosyalarını doldurduktan sonra web taramasını başlatmak için gerekli ayarlara sahip olursunuz. Norconex HTTP Toplayıcı, web'i tarayarak yapılandırmasıyla ilgili belge içeriğini bulur ve belge içeriğinin orijinal ikili (veya metin) sürümlerini dizine eklenir ve nihai olarak bu sunucuya sunulduğu Cloud Search dizine ekleme API'sine yükler kontrol edin.

Desteklenen işletim sistemi

Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi, Linux'a yüklenmelidir.

Desteklenen Norconex HTTP Toplayıcı sürümü

Google Cloud Search Norconex HTTP Toplayıcı dizine ekleme eklentisi, 2.8.0 sürümünü destekler.

EKL desteği

Dizine Ekleme eklentisi, Google Workspace alanındaki dokümanlara erişimi, Erişim Kontrol Listeleri (EKL'ler) kullanarak kontrol etmeyi destekler.

Google Cloud Search eklentisi yapılandırmasında varsayılan EKL'ler etkinleştirilirse (defaultAcl.mode none olarak ayarlanır ve defaultAcl.* ile yapılandırılır), dizin oluşturma eklentisi ilk olarak varsayılan EKL'dir.

Varsayılan EKL'ler etkin değilse eklenti, Google Workspace alanının tamamına okuma izni vermeye geri döner.

EKL yapılandırma parametrelerinin ayrıntılı açıklamaları için Google'ın sağladığı bağlayıcı parametreleri bölümüne bakın.

Ön koşullar

Dizine ekleme eklentisini dağıtmadan önce aşağıdaki gerekli bileşenlere sahip olduğunuzdan emin olun:

  • Dizine ekleme eklentisini çalıştıran bir bilgisayara Java JRE 1.8 yüklenmiş olmalıdır
  • Cloud Search ile Norconex HTTP Toplayıcısı arasında ilişki kurmak için gereken Google Workspace bilgileri:

    Genellikle, alanın Google Workspace yöneticisi bu kimlik bilgilerini sizin için sağlayabilir.

Dağıtım adımları

Dizine ekleme eklentisini dağıtmak için şu adımları uygulayın:

  1. Norconex HTTP Collector ve indexer eklenti yazılımını yükleme
  2. Google Cloud Search'ü yapılandırma
  3. Norconex HTTP Toplayıcı'yı yapılandırma
  4. Web taramasını yapılandırma
  5. Web taraması ve içerik yükleme işlemi başlatma

1. Adım: Norconex HTTP Collector'ı ve dizin oluşturma eklentisi yazılımını yükleyin

  1. Norconex Komisyon yazılımını bu sayfadan indirin.
  2. İndirilen yazılımı ~/norconex/ klasöre çıkartın
  3. GitHub'daki kaydetme eklentisini indirin. git clone https://github.com/google-cloudsearch/norconex-committer-plugin.git ve ardından cd norconex-committer-plugin
  4. Taahhüt eklentisinin istediğiniz sürümüne göz atın ve ZIP dosyasını oluşturun: git checkout tags/v1-0.0.3 ve mvn package (Bağlayıcıyı oluştururken testleri atlamak için mvn package -DskipTests kullanın.)
  5. cd target
  6. Derlenen eklenti jar dosyasını norconex lib dizinine kopyalayın. cp google-cloudsearch-norconex-committer-plugin-v1-0.0.3.jar ~/norconex/norconex-collector-http-{version}/lib
  7. Sıkıştırılmış ZIP dosyasını ayıklayın ve sıkıştırılmış dosyayı açın: unzip google-cloudsearch-norconex-committer-plugin-v1-0.0.3.zip
  8. Eklentinin .jar dosyasını ve gerekli tüm kitaplıkları http toplayıcı dizinine kopyalamak için yükleme komut dosyasını yürütün:
    1. Sıkıştırılmış Sıkıştırılmış dosya eklentisi yukarıda değiştirildi: cd google-cloudsearch-norconex-committer-plugin-v1-0.0.3
    2. $ sh install.sh yürütme ve istendiğinde hedef dizin olarak norconex/norconex-collector-http-{version}/lib işlevinin tam yolunu sağlama.
    3. Yinelenen jar dosyaları bulunduysa 1 seçeneğini belirleyin (Kaynak Jar'ı yalnızca hedef Jar'ı yeniden adlandırdıktan sonra hedef Jar'la daha büyük veya aynı sürümdeyseniz kopyalayın).

2. Adım: Google Cloud Search'ü yapılandırma

Dizine ekleme eklentisinin Norconex HTTP Toplayıcı'ya bağlanabilmesi ve alakalı içeriği dizine ekleyebilmesi için Cloudcon yapılandırma dosyasını Norconex HTTP Toplayıcı'nın yüklü olduğu Norconex dizininde oluşturmanız gerekir. Google, Cloud Search yapılandırma dosyasını sdk-configuration.properties olarak adlandırmanızı önerir.

Bu yapılandırma dosyası, bir parametreyi tanımlayan anahtar/değer çiftleri içermelidir. Yapılandırma dosyası, en az aşağıdaki parametreleri belirtmelidir. Bu parametreler, Cloud Search veri kaynağına erişmek için gereklidir.

Tema Parametre
Veri kaynağı kimliği api.sourceId = 1234567890abcdef
Zorunlu. Google Workspace yöneticisi tarafından oluşturulan Cloud Search kaynak kimliği.
Hizmet hesabı api.serviceAccountPrivateKeyFile = ./PrivateKey.json
Zorunlu. Dizine ekleme eklentisi erişilebilirliği için Google Workspace yöneticisi tarafından oluşturulan Cloud Search hizmet hesabı anahtar dosyası.

Aşağıdaki örnekte bir sdk-configuration.properties dosyası gösterilmektedir.

#
# data source access
api.sourceId=1234567890abcdef
api.serviceAccountPrivateKeyFile=./PrivateKey.json
#

Yapılandırma dosyası, Google tarafından sağlanan yapılandırma parametrelerini de içerebilir. Bu parametreler, bu eklentinin Google Cloud Search API'ye veri aktarma şeklini etkileyebilir. Örneğin, batch.* parametre grubu, bağlayıcının istekleri nasıl birleştirdiğini tanımlar.

Yapılandırma dosyasında bir parametre tanımlamazsanız varsa varsayılan değer kullanılır. Her bir parametrenin ayrıntılı açıklamaları için Google tarafından sağlanan bağlayıcı parametreleri bölümüne bakın.

Dizine ekleme eklentisini, dizine eklenen içerik için meta verileri ve yapılandırılmış verileri dolduracak şekilde yapılandırabilirsiniz. Meta veriler ve yapılandırılmış veri alanları için doldurulacak değerler, dizine eklenen HTML içeriğindeki meta etiketlerden ayıklanabilir veya yapılandırma dosyasında varsayılan değerler belirtilebilir.

Ayar Parametre
Unvan itemMetadata.title.field=movieTitle
itemMetadata.title.defaultValue=Gone with the Wind
Eklenti, varsayılan olarak HTML title dokümanının başlığını kullanır dizine ekleniyor. Eksik başlık olması durumunda, belge başlığına karşılık gelen değeri içeren meta veri özelliğine başvurabilir veya varsayılan bir değer ayarlayabilirsiniz.
Oluşturulan zaman damgası itemMetadata.createTime.field=releaseDate
itemMetadata.createTime.defaultValue=1940-01-17
Belge oluşturma zaman damgası değerini içeren meta veri özelliği.
Son değiştirilme zamanı itemMetadata.updateTime.field=releaseDate
itemMetadata.updateTime.defaultValue=1940-01-17
İlk değişiklik zaman damgası değeri doküman.
Doküman dili itemMetadata.contentLanguage.field=languageCode
itemMetadata.contentLanguage.defaultValue=en-US
Dizine eklenen dokümanların içerik dili.
Şema nesnesi türü itemMetadata.objectType=movie
Site tarafından kullanılan nesne türü ( veri kaynağı şeması nesne tanımlarında tanımlandığı gibi). Bu özellik belirtilmezse bağlayıcı herhangi bir yapılandırılmış veriyi dizine eklemez.

Not: Bu yapılandırma özelliği, bir meta veri özelliği yerine bir değere işaret eder ve .field ile .defaultValue ekleri desteklenmez.

Tarih ve saat biçimleri

Tarih ve saat biçimleri, meta veri özelliklerinde beklenen biçimleri belirtir. Yapılandırma dosyası bu parametreyi içermiyorsa varsayılan değerler kullanılır. Aşağıdaki tabloda bu parametre gösterilmektedir.

Ayar

Parametre

Ek tarih ve saat kalıpları

structuredData.dateTimePatterns=MM/dd/uuuu HH:mm:ssXXX

Ek java.time.format.DateTimeFormatter kalıplarının noktalı virgülle ayrılmış listesi. Kalıplar, meta verilerdeki veya şemadaki herhangi bir tarih veya tarih/saat alanına ilişkin dize değerleri ayrıştırılırken kullanılır. Varsayılan değer boş bir liste olsa da RFC 3339 ve RFC 1123 biçimleri her zaman desteklenmektedir.

3. Adım: Norconex HTTP Toplayıcı'yı yapılandırın

Zip arşivinorconex-committer-google-cloud-search-{version}.zip örnek bir yapılandırma dosyası,minimum-config.xml ,

Google, yapılandırma dosyasını örnek dosyayı kopyalayarak başlatmanızı önerir:

  1. Norconex HTTP Toplayıcı dizini olarak değiştirin:
    $ cd ~/norconex/norconex-collector-http-{version}/
  2. Yapılandırma dosyasını kopyalayın:
    $ cp examples/minimum/minimum-config.xml gcs-crawl-config.xml
  3. Yeni oluşturulan dosyayı (bu örnekte, gcs-crawl-config.xml) düzenleyin ve mevcut <committer> ve <tagger> düğümlerini aşağıdaki tabloda açıklanan şekilde ekleyin veya değiştirin.
Tema Parametre
<committer> node <committer class="com.norconex.committer.googlecloudsearch. GoogleCloudSearchCommitter">

Gereklidir. Eklentiyi etkinleştirmek için kök <httpcollector> düğümünün alt öğesi olarak bir <committer> düğümü eklemeniz gerekir.
<UploadFormat> <uploadFormat>raw</uploadFormat>
İsteğe bağlı. Diziner eklentisinin, doküman içeriğini Google Cloud Search dizinleyici API'sine aktardığı biçim. Geçerli değerler aşağıda belirtilmiştir:
  • raw: Dizine ekleme eklentisi, dönüştürülmemiş orijinal doküman içeriğini aktarır.
  • text: Dizine ekleme eklentisi, ayıklanan metin içeriğini aktarır.

Varsayılan değer raw değeridir.
BinaryContent Tagger <tagger> node <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
<UploadFormat> değeri raw ise gereklidir. Bu durumda, dizine ekleme eklentisi, dokümanın ikili içerik alanının kullanılabilir olmasını gerektirir.

BinaryContentTagger <tagger> düğümünü <importer> / <preParseHandlers> düğümünün alt öğesi olarak eklemeniz gerekir.

Aşağıdaki örnekte, gcs-crawl-config.xml ,

<committer class="com.norconex.committer.googlecloudsearch.GoogleCloudSearchCommitter">
    <configFilePath>/full/path/to/gcs-sdk-config.properties</configFilePath>
    <!-- Optional, value="[raw|text]". Default value: raw -->
    <uploadFormat>raw</uploadFormat>
</committer>
<importer>
  <preParseHandlers>
    <tagger class="com.norconex.committer.googlecloudsearch.BinaryContentTagger"/>
  </preParseHandlers>
</importer>

4. Adım: Web taramasını yapılandırın

Bir web taraması başlatmadan önce, taramayı yalnızca kuruluşunuzun arama sonuçlarında kullanılabilir hale getirmek istediği bilgileri içerecek şekilde yapılandırmanız gerekir. Web tarama için en önemli ayarlar, <crawler> düğümlerinin bir parçasıdır ve şunları içerebilir:

  • Başlangıç URL'leri
  • Taramanın maksimum derinliği
  • İleti dizisi sayısı

Bu yapılandırma değerlerini ihtiyaçlarınıza göre değiştirin. Web tarama kurulumu hakkında daha ayrıntılı bilgi ve mevcut yapılandırma parametrelerinin tam listesi için HTTP Toplayıcı'nın Yapılandırma sayfasına bakın.

5. Adım: Web taraması ve içerik yükleme işlemi başlatın

Dizinleyici eklentisini yükledikten ve kurduktan sonra, eklentiyi yerel modda çalıştırabilirsiniz.

Aşağıdaki örnekte, gerekli bileşenlerin bir Linux sistemindeki yerel dizinde bulunduğu varsayılmaktadır. Aşağıdaki komutu çalıştırın:

$ ./collector-http[.bat|.sh] -a start -c gcs-crawl-config.xml

Tarayıcıyı JEF Monitor ile izleme

Norconex JEF (İş Yürütme Çerçevesi) Monitor, Norconex Web Browser (HTTP Collector) işlemlerinin ve işlerinin ilerlemesini izlemek için kullanılan bir grafik aracıdır. Bu yardımcı programı ayarlamayla ilgili eksiksiz bir eğitim için Tarayıcınızın ilerleme durumunu JEF Monitor ile izleme sayfasını ziyaret edin.