Google Cloud Platform에서 대용량 주소 검증을 위한 설계 패턴

목표

대용량 주소 확인 가이드에서는 대용량 주소 확인을 사용할 수 있는 다양한 시나리오를 안내했습니다. 이 튜토리얼에서는 대용량 주소 검증을 실행하기 위한 Google Cloud Platform 내의 다양한 설계 패턴을 소개합니다.

먼저 Cloud Run, Compute Engine 또는 Google Kubernetes Engine을 사용해 Google Cloud Platform에서 일회성으로 대용량 주소 검증을 실행하는 방법을 간략히 살펴보겠습니다. 그런 다음 이 기능을 데이터 파이프라인의 일부로 포함하는 방법을 살펴보겠습니다.

이 도움말을 마치고 나면 Google Cloud 환경에서 대량의 주소 유효성 검사를 실행하기 위한 다양한 옵션을 제대로 이해할 수 있게 됩니다.

Google Cloud Platform의 참조 아키텍처

이 섹션에서는 Google Cloud Platform을 사용한 대용량 주소 검증을 위한 다양한 설계 패턴을 자세히 살펴봅니다. Google Cloud Platform에서 실행하면 기존 프로세스 및 데이터 파이프라인과 통합할 수 있습니다.

Google Cloud Platform에서 대용량 주소 검증 1회 실행

다음은 일회성 작업 또는 테스트에 적합한 Google Cloud Platform에서 통합을 빌드하는 방법에 대한 참조 아키텍처입니다.

이미지

이 경우 CSV 파일을 Cloud Storage 버킷에 업로드하는 것이 좋습니다. 그러면 대용량 주소 검증 스크립트를 Cloud Run 환경에서 실행할 수 있습니다. 하지만 Compute Engine 또는 Google Kubernetes Engine과 같은 다른 런타임 환경에서도 실행할 수 있습니다. 출력 CSV는 Cloud Storage 버킷에도 업로드할 수 있습니다.

Google Cloud Platform 데이터 파이프라인으로 실행

이전 섹션에 나와 있는 배포 패턴은 일회성 사용에 대한 대용량 주소 검증을 빠르게 테스트하는 데 적합합니다. 그러나 데이터 파이프라인의 일부로 정기적으로 사용해야 하는 경우 Google Cloud Platform 기본 기능을 더 잘 활용하여 더 강력하게 만들 수 있습니다. 변경할 수 있는 항목은 다음과 같습니다.

이미지

  • 이 경우 Cloud Storage 버킷에서 CSV 파일을 덤프할 수 있습니다.
  • Dataflow 작업은 처리할 주소를 선택한 다음 BigQuery에 캐시할 수 있습니다.
  • Dataflow Python 라이브러리를 확장하여 Dataflow 작업의 주소를 검증하는 대용량 주소 검증 로직을 포함할 수 있습니다.

데이터 파이프라인에서 스크립트를 오래 지속되는 반복 프로세스로 실행

또 다른 일반적인 접근 방식은 스트리밍 데이터 파이프라인의 일부로 주소 배치를 반복 프로세스로 검증하는 것입니다. BigQuery 데이터 스토어에 주소가 있을 수도 있습니다. 이 접근 방식에서는 반복되는 데이터 파이프라인을 구축하는 방법을 살펴봅니다 (매일/매주/매월 트리거되어야 함).

이미지

  • 초기 CSV 파일을 Cloud Storage 버킷에 업로드합니다.
  • Memorystore를 영구 Datastore로 사용하여 장기 실행 프로세스의 중간 상태를 유지합니다.
  • BigQuery 데이터 스토어에서 최종 주소를 캐시합니다.
  • 스크립트를 주기적으로 실행하도록 Cloud Scheduler를 설정합니다.

이 아키텍처에는 다음과 같은 장점이 있습니다.

  • Cloud Scheduler를 사용하여 주소 검증을 주기적으로 수행할 수 있습니다. 주소를 월 단위로 재확인하거나 매월/분기별로 새 주소를 확인할 수 있습니다. 이 아키텍처는 이러한 사용 사례를 해결하는 데 도움이 됩니다.
  • 고객 데이터가 BigQuery에 있으면 확인된 주소 또는 유효성 검사 플래그가 이곳에 직접 캐시될 수 있습니다. 참고: 캐시할 수 있는 항목과 대용량 주소 유효성 검사 도움말의 세부정보에 설명된 방법

  • Memorystore를 사용하면 복원력이 높아지고 더 많은 주소를 처리할 수 있습니다. 이 단계에서는 초대형 주소 데이터 세트를 처리하는 데 필요한 전체 처리 파이프라인에 스테이트풀(Stateful)을 추가합니다. Cloud SQL[https://cloud.google.com/sql] 과 같은 다른 데이터베이스 기술 또는 Google Cloud Platform이 제공하는 다른 데이터베이스 기술도 여기에서 사용할 수 있습니다. 하지만 메모리 저장소는 확장과 단순성 요구사항의 균형을 맞추는 것이 완벽하므로 첫 번째 선택이 되어야 합니다.

결론

여기에 설명된 패턴을 적용하면 Google Cloud Platform의 여러 사용 사례와 사용 사례에 Address Validation API를 사용할 수 있습니다.

위에서 설명한 사용 사례를 시작하는 데 도움이 되도록 오픈소스 Python 라이브러리를 작성했습니다. 컴퓨터의 명령줄에서 호출하거나 Google Cloud Platform 또는 다른 클라우드 제공업체에서 호출할 수 있습니다.

도움말에서 라이브러리 사용 방법을 자세히 알아보세요.

다음 단계

신뢰할 수 있는 주소로 결제, 배송, 운영 개선 백서를 다운로드하고 주소 확인으로 결제, 배송, 운영 개선 웹 세미나를 확인하세요.

권장 추가 자료:

기여자

이 도움말은 Google에서 유지관리합니다. 이 글은 다음 도움을 주신 분들이 처음 작성했습니다.
수석 저자:

헨릭 밸브 | 솔루션 엔지니어
토마스 앙글라렛 | 솔루션 엔지니어
사르탁 강굴리 | 솔루션 엔지니어