Designmuster für die Validierung von Adressen mit hohem Volumen auf der Google Cloud Platform

Ziel

In der Anleitung Adressvalidierung mit hohem Volumen wurden Sie durch verschiedene Szenarien geführt, in denen eine Adressüberprüfung mit hohem Volumen verwendet werden kann. In dieser Anleitung stellen wir Ihnen verschiedene Designmuster in der Google Cloud Platform zum Ausführen der Adressvalidierung mit hohem Volume vor.

Wir beginnen mit einer Übersicht zum Ausführen der Adressvalidierung mit hohem Volumen in der Google Cloud Platform mit Cloud Run, Compute Engine oder Google Kubernetes Engine für einmalige Ausführungen. Anschließend sehen wir uns an, wie diese Funktionalität als Teil einer Datenpipeline eingebunden werden kann.

Am Ende dieses Artikels sollten Sie ein gutes Verständnis der verschiedenen Optionen haben, mit denen Sie die Adressvalidierung in großem Umfang in Ihrer Google Cloud-Umgebung ausführen können.

Referenzarchitektur auf der Google Cloud Platform

In diesem Abschnitt werden verschiedene Designmuster für die Adressüberprüfung mit hohem Volumen mit der Google Cloud Platform genauer beschrieben. Durch die Ausführung auf der Google Cloud Platform können Sie Ihre vorhandenen Prozesse und Datenpipelines einbinden.

High-Volume-Adressvalidierung einmal in der Google Cloud Platform ausführen

Im Folgenden finden Sie eine Referenzarchitektur zum Erstellen einer Integration auf der Google Cloud Platform, die sich eher für einmalige Vorgänge oder Tests eignet.

Image

In diesem Fall empfehlen wir, die CSV-Datei in einen Cloud Storage-Bucket hochzuladen. Das Script zur Überprüfung der Adresse mit hohem Volume kann dann in einer Cloud Run-Umgebung ausgeführt werden. Sie können ihn jedoch in jeder anderen Laufzeitumgebung wie Compute Engine oder Google Kubernetes Engine ausführen. Die ausgegebene CSV-Datei kann auch in den Cloud Storage-Bucket hochgeladen werden.

Als Google Cloud Platform-Datenpipeline ausführen

Das im vorherigen Abschnitt gezeigte Bereitstellungsmuster eignet sich hervorragend zum schnellen Testen der Adressvalidierung mit hohem Volumen für eine einmalige Verwendung. Wenn Sie es jedoch regelmäßig als Teil einer Datenpipeline verwenden müssen, können Sie es besser mit den nativen Funktionen der Google Cloud Platform robuster machen. Sie können beispielsweise folgende Änderungen vornehmen:

Image

  • In diesem Fall können Sie CSV-Dateien in Cloud Storage-Buckets speichern.
  • Ein Dataflow-Job kann die zu verarbeitenden Adressen abrufen und dann in BigQuery im Cache speichern.
  • Die Dataflow-Python-Bibliothek kann um die Logik für die High-Volume-Adressvalidierung erweitert werden, um die Adressen aus dem Dataflow-Job zu validieren.

Skript aus einer Datenpipeline als lang andauernder wiederkehrender Prozess ausführen

Ein weiterer gängiger Ansatz besteht darin, einen Batch von Adressen als Teil einer Streaming-Datenpipeline als wiederkehrender Prozess zu validieren. Die Adressen sind möglicherweise auch in einem BigQuery-Datenspeicher enthalten. Bei diesem Ansatz erfahren Sie, wie Sie eine wiederkehrende Datenpipeline erstellen (die täglich/wöchentlich/monatlich ausgelöst werden muss).

Image

  • Laden Sie die ursprüngliche CSV-Datei in einen Cloud Storage-Bucket hoch.
  • Verwenden Sie Memorystore als nichtflüchtigen Datenspeicher, um den Zwischenzustand für einen lang andauernden Prozess beizubehalten.
  • Speichern Sie die endgültigen Adressen in einem BigQuery-Datenspeicher im Cache.
  • Richten Sie Cloud Scheduler ein, um das Skript regelmäßig auszuführen.

Diese Architektur bietet folgende Vorteile:

  • Die Adressenvalidierung kann mit Cloud Scheduler regelmäßig durchgeführt werden. Sie können die Adressen gegebenenfalls monatlich oder alle neuen Adressen monatlich oder vierteljährlich überprüfen. Diese Architektur hilft, diesen Anwendungsfall zu lösen.
  • Wenn sich Kundendaten in BigQuery befinden, können die bestätigten Adressen oder Validierungs-Flags direkt dort im Cache gespeichert werden. Hinweis: Welche Daten im Cache gespeichert werden können und wie genau beschrieben wird, ist im Artikel High Volume Address Validation genauer beschrieben.

  • Memorystore bietet eine höhere Ausfallsicherheit und die Möglichkeit, mehr Adressen zu verarbeiten. Dieser Schritt verleiht der gesamten Verarbeitungspipeline eine Zustandsorientiertheit, die für die Verarbeitung sehr großer Adress-Datasets erforderlich ist. Auch andere Datenbanktechnologien wie Cloud SQL[https://cloud.google.com/sql] oder andere von der Google Cloud Platform angebotene Datenbanken können genutzt werden. Wir sind jedoch der Meinung, dass der Speicherspeicher die Skalierungs- und Einfachheitsanforderungen perfekt ausgleicht und daher die erste Wahl sein sollte.

Fazit

Wenn Sie die hier beschriebenen Muster anwenden, können Sie die Address Validation API für verschiedene Anwendungsfälle und für unterschiedliche Anwendungsfälle auf der Google Cloud Platform nutzen.

Wir haben eine Open-Source-Python-Bibliothek erstellt, die Ihnen den Einstieg in die oben beschriebenen Anwendungsfälle erleichtert. Es kann über eine Befehlszeile auf Ihrem Computer oder über die Google Cloud Platform oder andere Cloud-Anbieter aufgerufen werden.

Weitere Informationen zur Verwendung der Bibliothek finden Sie in diesem Artikel.

Nächste Schritte

Laden Sie das Whitepaper Verbessern der Kasse, der Zustellung und der Abläufe mit zuverlässigen Adressen herunter und sehen Sie sich das Webinar Kasse, Zustellung und Abläufe mit Adressüberprüfung verbessern an.

Leseempfehlungen:

Beitragende

Dieser Artikel wird von Google verwaltet. Die folgenden Mitwirkenden haben ihn ursprünglich verfasst.
Hauptautor:

Henrik Valve | Solutions Engineer
Thomas Anglaret | Solutions Engineer
Sarthak Ganguly | Solutions Engineer