Modèles de conception pour la validation d'adresses à volume élevé sur Google Cloud Platform

Objectif

Le tutoriel Validation d'adresses à volume élevé vous a guidé à travers différents scénarios dans lesquels la validation d'adresses à volume élevé peut être utilisée. Dans ce tutoriel, nous allons vous présenter différents modèles de conception dans Google Cloud Platform pour la validation d'adresses en volume élevé.

Nous commencerons par vous expliquer comment utiliser la validation d'adresses à volume élevé dans Google Cloud Platform avec Cloud Run, Compute Engine ou Google Kubernetes Engine, pour des exécutions uniques. Nous verrons ensuite comment inclure cette capacité dans un pipeline de données.

À la fin de cet article, vous devriez avoir une bonne compréhension des différentes options permettant d'exécuter Address Validation sur de grands volumes de données dans votre environnement Google Cloud.

Architecture de référence sur Google Cloud Platform

Cette section aborde plus en détail différents modèles de conception pour la validation d'adresses à volume élevé à l'aide de Google Cloud Platform. L'exécution sur Google Cloud Platform vous permet d'intégrer vos processus et pipelines de données existants.

Exécuter une seule fois la validation d'un volume élevé d'adresses sur Google Cloud Platform

Vous trouverez ci-dessous une architecture de référence expliquant comment créer une intégration sur Google Cloud Platform, mieux adaptée aux opérations ou aux tests ponctuels.

Image

Dans ce cas, nous vous recommandons d'importer le fichier CSV dans un bucket Cloud Storage. Vous pouvez ensuite exécuter le script de validation d'adresse à volume élevé depuis un environnement Cloud Run. Cependant, vous pouvez l'exécuter dans n'importe quel autre environnement d'exécution, comme Compute Engine ou Google Kubernetes Engine. Le fichier CSV de sortie peut également être importé dans le bucket Cloud Storage.

Exécuter un pipeline de données Google Cloud Platform

Le schéma de déploiement présenté dans la section précédente est idéal pour tester rapidement la validation des adresses à volume élevé pour une utilisation unique. Toutefois, si vous devez l'utiliser régulièrement dans le cadre d'un pipeline de données, vous pouvez mieux exploiter les fonctionnalités natives de Google Cloud Platform pour le rendre plus robuste. Voici quelques exemples de modifications que vous pouvez effectuer:

Image

  • Dans ce cas, vous pouvez vider les fichiers CSV dans des buckets Cloud Storage.
  • Une tâche Dataflow peut récupérer les adresses à traiter et les mettre en cache dans BigQuery.
  • La bibliothèque Dataflow Python peut être étendue pour intégrer une logique de validation d'adresses à volume élevé afin de valider les adresses à partir du job Dataflow.

Exécuter le script à partir d'un pipeline de données en tant que processus récurrent et durable

Une autre approche courante consiste à valider un lot d'adresses dans le cadre d'un pipeline de données en flux continu, en tant que processus récurrent. Vous pouvez également disposer des adresses dans un datastore BigQuery. Avec cette approche, nous allons voir comment créer un pipeline de données récurrent (qui doit être déclenché quotidiennement/hebdomadaire/mensuel).

Image

  • Importez le fichier CSV initial dans un bucket Cloud Storage.
  • Utilisez Memorystore en tant que datastore persistant pour conserver l'état intermédiaire pour le processus de longue durée.
  • Mettez en cache les adresses finales dans un datastore BigQuery.
  • Configurez Cloud Scheduler pour exécuter le script régulièrement.

Cette architecture présente les avantages suivants :

  • Cloud Scheduler vous permet d'effectuer régulièrement la validation des adresses. Vous pouvez revalider les adresses tous les mois ou valider les nouvelles adresses tous les mois ou tous les trimestres. Cette architecture permet de résoudre ce cas d'utilisation.
  • Si les données client se trouvent dans BigQuery, les adresses validées ou les indicateurs de validation peuvent y être directement mis en cache. Remarque: Quels éléments peuvent être mis en cache et comment sont décrits en détail dans l'article Validation d'adresses en volume élevé ?

  • L'utilisation de Memorystore renforce la résilience et permet de traiter davantage d'adresses. Cette procédure ajoute un état à l'ensemble du pipeline de traitement, ce qui est nécessaire pour traiter de très grands ensembles de données d'adresses. Vous pouvez également utiliser d'autres technologies de base de données telles que Cloud SQL[https://cloud.google.com/sql] ou tout autre type de base de données proposé par Google Cloud Platform. Cependant, nous pensons qu'il convient d'opter pour la solution Memorystore parfaite qui équilibre les besoins en termes de scaling et de simplicité.

Conclusion

En appliquant les modèles décrits ici, vous pouvez utiliser l'API Address Validation dans différents cas d'utilisation et dans Google Cloud Platform.

Nous avons écrit une bibliothèque Python Open Source pour vous aider à utiliser les cas d'utilisation décrits ci-dessus. Elle peut être appelée depuis une ligne de commande sur votre ordinateur, ou depuis Google Cloud Platform ou d'autres fournisseurs de services cloud.

Pour en savoir plus sur l'utilisation de la bibliothèque, consultez cet article.

Étapes suivantes

Téléchargez le livre blanc Améliorer le processus de paiement, de livraison et d'exploitation avec des adresses fiables et consultez le webinaire Améliorer le processus de paiement, de livraison et d'exploitation avec Address Validation .

Autres ressources suggérées:

Contributeurs

Cet article est mis à jour par Google. Ce commentaire a été écrit initialement par les contributeurs suivants.
Auteurs principaux:

Henrik Valve | Ingénieur solutions
Thomas Anglaret | Ingénieur solutions
Sarthak Ganguly | Ingénieur solutions