ออกแบบรูปแบบสำหรับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform

วัตถุประสงค์

บทแนะนำการตรวจสอบที่อยู่ปริมาณมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่ปริมาณมาก ในบทแนะนำนี้ เราจะแนะนำรูปแบบการออกแบบที่แตกต่างกันภายใน Google Cloud Platform สำหรับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมาก

เราจะเริ่มด้วยภาพรวมเกี่ยวกับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform กับ Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการแบบครั้งเดียว จากนั้นเราจะดูว่าจะเพิ่มความสามารถนี้เป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร

เมื่อจบบทความนี้แล้ว คุณควรเข้าใจตัวเลือกต่างๆ สำหรับเรียกใช้การตรวจสอบที่อยู่จำนวนมากในสภาพแวดล้อม Google Cloud ของคุณเป็นอย่างดี

สถาปัตยกรรมอ้างอิงบน Google Cloud Platform

ส่วนนี้จะเจาะลึกเกี่ยวกับรูปแบบการออกแบบต่างๆ สำหรับการตรวจสอบที่อยู่ปริมาณมากโดยใช้ Google Cloud Platform การใช้งานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้

การเรียกใช้การตรวจสอบที่อยู่ปริมาณมากบน Google Cloud Platform 1 ครั้ง

ด้านล่างนี้เป็นสถาปัตยกรรมอ้างอิงของวิธีสร้างการผสานรวมบน Google Cloud Platform ซึ่งเหมาะกับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า

รูปภาพ

ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นจะเรียกใช้สคริปต์การตรวจสอบที่อยู่ปริมาณมากจากสภาพแวดล้อม Cloud Run ได้ แต่คุณจะเรียกใช้สภาพแวดล้อมรันไทม์อื่นก็ได้ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV เอาต์พุตไปยังที่เก็บข้อมูล Cloud Storage ได้

ทำงานเป็นไปป์ไลน์ข้อมูล Google Cloud Platform

รูปแบบการทำให้ใช้งานได้ที่แสดงในส่วนก่อนหน้านี้เหมาะอย่างยิ่งสำหรับการทดสอบการตรวจสอบที่อยู่ปริมาณมากสำหรับการใช้งานครั้งเดียวอย่างรวดเร็ว อย่างไรก็ตาม หากจำเป็นต้องใช้เป็นประจำเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูล คุณสามารถใช้ความสามารถของ Google Cloud Platform ที่มีอยู่ในระบบเพื่อให้มีประสิทธิภาพมากขึ้นได้ การเปลี่ยนแปลงที่คุณทำได้มีดังนี้

รูปภาพ

  • ในกรณีนี้ คุณสามารถดัมพ์ไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
  • งาน Dataflow สามารถรับที่อยู่เพื่อประมวลผล จากนั้นแคชใน BigQuery
  • คุณขยายไลบรารี Dataflow Python เพื่อให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow ได้

การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำที่ยาวนาน

วิธีการทั่วไปอีกวิธีคือการตรวจสอบกลุ่มที่อยู่ซึ่งเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่ในพื้นที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะได้เห็นวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งจำเป็นต้องทริกเกอร์ทุกวัน/รายสัปดาห์/รายเดือน)

รูปภาพ

  • อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
  • ใช้ Memorystore เป็นพื้นที่เก็บข้อมูลถาวรเพื่อรักษาสถานะขั้นกลางสำหรับกระบวนการทำงานที่ยาวนาน
  • แคชที่อยู่สุดท้ายในพื้นที่เก็บข้อมูล BigQuery
  • ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะ

สถาปัตยกรรมนี้มีข้อดีดังนี้

  • คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่ได้เป็นระยะๆ คุณอาจต้องการตรวจสอบที่อยู่ใหม่เป็นประจำทุกเดือน หรือตรวจสอบที่อยู่ใหม่เป็นรายเดือน/รายไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case นั้นได้
  • หากข้อมูลลูกค้าอยู่ใน BigQuery ระบบจะแคชที่อยู่ที่ตรวจสอบแล้วหรือแฟล็กการตรวจสอบความถูกต้องได้โดยตรง หมายเหตุ: ข้อมูลที่สามารถแคชได้และวิธีการอธิบายรายละเอียดในบทความการตรวจสอบที่อยู่ปริมาณมาก

  • การใช้ Memorystore จะช่วยเพิ่มความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะการเก็บสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจำเป็นต่อการจัดการชุดข้อมูลที่อยู่ที่มีขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือรสชาติของฐานข้อมูลอื่นๆ ที่ Google Cloud Platform มีให้บริการที่นี่เช่นกัน อย่างไรก็ตาม เราเชื่อว่า Memorystore เป็นโซลูชันที่สร้างความสมดุลให้กับการปรับขนาดและความเรียบง่าย จึงเป็นตัวเลือกแรก

บทสรุป

เมื่อใช้รูปแบบที่อธิบายในที่นี้ คุณจะใช้ Address Validation API สำหรับกรณีการใช้งานต่างๆ และจาก Use Case ที่แตกต่างกันบน Google Cloud Platform ได้

เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยคุณเริ่มต้นใช้งานกรณีการใช้งานตามที่อธิบายไว้ข้างต้น คุณจะเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์หรือจาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์อื่นๆ ก็ได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังจากบทความนี้

ขั้นตอนถัดไป

ดาวน์โหลดเอกสารประกอบปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่เชื่อถือได้ และดูการสัมมนาผ่านเว็บเกี่ยวกับการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการตรวจสอบที่อยู่

แนะนำให้อ่านเพิ่มเติม:

ผู้ร่วมให้ข้อมูล

Google เป็นผู้ดูแลบทความนี้ ผู้เขียนต่อไปนี้เป็นคนเขียน
ผู้เขียนหลัก:

Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน