Wzorce projektowe do walidacji dużej ilości adresów w Google Cloud Platform

Cel

Samouczek dotyczący walidacji adresów dużej liczby adresów przeprowadził Cię przez różne sytuacje, w których może być stosowana weryfikacja wielu adresów. W tym samouczku omówimy różne wzorce projektowania w Google Cloud Platform związane z weryfikacją adresów wielu użytkowników.

Zaczniemy od przeglądu jednorazowej weryfikacji adresów wielu użytkowników w Google Cloud Platform z użyciem Cloud Run, Compute Engine lub Google Kubernetes Engine. W dalszej części modułu zobaczymy, jak możesz uwzględnić tę funkcję w potoku danych.

Z tego artykułu dowiesz się więcej o różnych opcjach przeprowadzania dużej liczby walidacji adresów w środowisku Google Cloud.

Architektura referencyjna w Google Cloud Platform

W tej sekcji omawiamy szczegółowo różne wzorce projektowania walidacji adresów dużej liczby adresów za pomocą Google Cloud Platform. Działając w Google Cloud Platform, możesz zintegrować swoje procesy i potoki danych.

Jednorazowa weryfikacja adresów wielu woluminów w Google Cloud Platform

Poniżej znajduje się architektura referencyjna pokazująca, jak tworzyć integrację w Google Cloud Platform, która jest bardziej odpowiednia do jednorazowych operacji lub testów.

obraz

W takim przypadku zalecamy przesłanie pliku CSV do zasobnika Cloud Storage. Następnie skrypt walidacji adresów wielu woluminów możesz uruchomić w środowisku Cloud Run. Możesz go jednak wykonać w dowolnym innym środowisku wykonawczym, takim jak Compute Engine czy Google Kubernetes Engine. Wyjściowy plik CSV możesz też przesłać do zasobnika Cloud Storage.

Działanie jako potok danych Google Cloud Platform

Wzorzec wdrożenia pokazany w poprzedniej sekcji świetnie nadaje się do szybkiego testowania jednorazowej weryfikacji adresów wielu adresów. Jeśli jednak chcesz regularnie używać jej w ramach potoku danych, możesz lepiej wykorzystać natywne możliwości Google Cloud Platform, aby zwiększyć jej niezawodność. Oto kilka zmian, które możesz wprowadzić:

obraz

  • W takim przypadku możesz zrzucić pliki CSV w zasobnikach Cloud Storage.
  • Zadanie Dataflow może pobrać adresy do przetworzenia i zapisać je w pamięci podręcznej w BigQuery.
  • Bibliotekę Dataflow w języku Python można rozszerzyć o logikę walidacji adresów dużej ilości, co pozwoli na weryfikację adresów z zadania Dataflow.

Uruchamianie skryptu z potoku danych jako długotrwały proces cykliczny

Innym typowym podejściem jest weryfikowanie grupy adresów w ramach potoku strumieni danych w ramach procesu cyklicznego. Możesz też mieć adresy w magazynie danych BigQuery. W tym podejściu zobaczymy, jak utworzyć cykliczny potok danych (który musi być uruchamiany codziennie, co tydzień lub co miesiąc).

obraz

  • Prześlij początkowy plik CSV do zasobnika Cloud Storage.
  • Używaj Memorystore jako trwałego magazynu danych, aby utrzymać stan pośredni na długotrwałym procesie.
  • Zapisywanie końcowych adresów w pamięci podręcznej w magazynie danych BigQuery.
  • Skonfiguruj Cloud Scheduler, aby okresowo uruchamiać skrypt.

Jej zalety to:

  • Za pomocą Cloud Scheduler weryfikacja adresu może odbywać się okresowo. Warto to robić co miesiąc lub raz w miesiącu albo raz na kwartał. Ta architektura pomaga w tym przypadku.
  • Jeśli dane klientów znajdują się w BigQuery, zweryfikowane adresy lub flagi weryfikacyjne mogą być przechowywane bezpośrednio w pamięci podręcznej. Uwaga: co może być przechowywane w pamięci podręcznej i jak zostało to szczegółowo opisane w artykule na temat sprawdzania adresów dużej ilości adresów

  • Korzystanie z Memorystore zapewnia większą odporność i możliwość przetwarzania większej liczby adresów. Ten etap nadaje stanowi stanowemu całemu potokowi przetwarzania, co jest potrzebne do obsługi bardzo dużych zbiorów danych adresów. Można tu również stosować inne technologie baz danych, takie jak Cloud SQL[https://cloud.google.com/sql] lub inne rodzaje baz danych oferowane przez Google Cloud Platform. Uważamy jednak, że idealne rozwiązanie pamięci masowej zapewnia równowagę pomiędzy potrzebami skalowania i prostością, dlatego powinno być najlepszym wyborem.

Podsumowanie

Stosując opisane tu wzorce, możesz używać interfejsu Address Verificationation API w różnych przypadkach użycia i w różnych przypadkach użycia w Google Cloud Platform.

Opracowaliśmy bibliotekę open source w języku Python, aby pomóc Ci zacząć korzystać z opisanych powyżej przypadków użycia. Można ją wywołać z wiersza poleceń na komputerze lub z Google Cloud Platform lub od innych dostawców chmury.

Więcej informacji o korzystaniu z biblioteki znajdziesz w tym artykule.

Dalsze kroki

Pobierz dokument Usprawnij proces płatności, dostawy i operacji dzięki wiarygodnym adresom i obejrzyj webinar Jak usprawnić proces płatności, dostawy i operacji dzięki weryfikacji adresu .

Sugerowana dalsza analiza:

Współtwórcy

Google przechowuje ten artykuł. Następujący współtwórcy napisali go pierwotnie.
Główne autorzy:

Henrik Valve | Inżynier ds. rozwiązań
Thomas Anglaret | Inżynier ds. rozwiązań
Sarthak Ganguly | Inżynier ds. rozwiązań