الگوهای طراحی برای اعتبارسنجی آدرس با حجم بالا در Google Cloud Platform

هدف، واقعگرایانه

آموزش اعتبار سنجی آدرس با حجم بالا شما را از طریق سناریوهای مختلفی که می توان از اعتبارسنجی آدرس با حجم بالا استفاده کرد، راهنمایی کرد. در این آموزش شما را با الگوهای طراحی مختلف در Google Cloud Platform برای اجرای اعتبارسنجی آدرس با حجم بالا آشنا می کنیم.

ما با مروری بر اجرای اعتبارسنجی آدرس با حجم بالا در Google Cloud Platform با Cloud Run، Compute Engine یا Google Kubernetes Engine برای اجراهای یکباره شروع خواهیم کرد. سپس خواهیم دید که چگونه این قابلیت می تواند به عنوان بخشی از خط لوله داده گنجانده شود.

در پایان این مقاله باید درک خوبی از گزینه های مختلف اجرای Address Validation در حجم بالا در محیط Google Cloud خود داشته باشید.

معماری مرجع در Google Cloud Platform

این بخش بیشتر به الگوهای طراحی مختلف برای اعتبارسنجی آدرس با حجم بالا با استفاده از Google Cloud Platform می پردازد. با اجرای بر روی Google Cloud Platform، می توانید با فرآیندهای موجود و خطوط لوله داده خود یکپارچه شوید.

اجرای اعتبارسنجی آدرس با حجم بالا یک بار در Google Cloud Platform

در زیر یک معماری مرجع از نحوه ایجاد یکپارچگی در Google Cloud Platform نشان داده شده است که برای عملیات یا آزمایش یکباره مناسب تر است.

تصویر

در این مورد، توصیه می کنیم فایل CSV را در یک سطل ذخیره سازی ابری آپلود کنید. سپس اسکریپت High Volume Address Validation را می توان از یک محیط Cloud Run اجرا کرد. با این حال می توانید آن را در هر محیط زمان اجرا دیگری مانند Compute Engine یا Google Kubernetes Engine اجرا کنید. CSV خروجی را می توان در سطل ذخیره سازی ابری نیز آپلود کرد.

در حال اجرا به عنوان خط لوله داده Google Cloud Platform

الگوی استقرار نشان داده شده در بخش قبل برای آزمایش سریع اعتبارسنجی آدرس با حجم بالا برای یک بار استفاده عالی است. با این حال، اگر نیاز دارید که به طور منظم از آن به عنوان بخشی از خط لوله داده استفاده کنید، بهتر می توانید از قابلیت های بومی Google Cloud Platform برای قوی تر کردن آن استفاده کنید. برخی از تغییراتی که می توانید ایجاد کنید عبارتند از:

تصویر

  • در این حالت، می‌توانید فایل‌های CSV را در سطل‌های Cloud Storage قرار دهید.
  • یک کار Dataflow می‌تواند آدرس‌هایی را که باید پردازش شوند و سپس در BigQuery ذخیره می‌کند، انتخاب کند.
  • کتابخانه Dataflow Python را می‌توان به گونه‌ای گسترش داد که منطقی برای اعتبارسنجی آدرس با حجم بالا برای اعتبارسنجی آدرس‌ها از کار Dataflow داشته باشد.

اجرای اسکریپت از خط لوله داده به عنوان یک فرآیند طولانی مدت و تکرارشونده

یکی دیگر از رویکردهای رایج، اعتبارسنجی دسته ای از آدرس ها به عنوان بخشی از خط لوله داده های جریانی به عنوان یک فرآیند تکرار شونده است. همچنین ممکن است آدرس‌ها را در یک فروشگاه داده بزرگ داشته باشید. در این رویکرد خواهیم دید که چگونه یک خط لوله داده مکرر ایجاد کنیم (که باید روزانه / هفتگی / ماهانه راه اندازی شود)

تصویر

  • فایل CSV اولیه را در یک سطل فضای ذخیره سازی ابری آپلود کنید.
  • از Memorystore به عنوان یک ذخیره‌گاه داده پایدار برای حفظ حالت میانی برای فرآیند طولانی مدت استفاده کنید.
  • آدرس های نهایی را در یک دیتا استور BigQuery ذخیره کنید.
  • Cloud Scheduler را برای اجرای دوره ای اسکریپت تنظیم کنید.

این معماری دارای مزایای زیر است:

  • با استفاده از Cloud Scheduler ، اعتبار سنجی آدرس را می توان به صورت دوره ای انجام داد. ممکن است بخواهید آدرس ها را به صورت ماهانه مجدداً تأیید کنید یا هر آدرس جدید را به صورت ماهانه/سه ماهه تأیید کنید. این معماری به حل آن مورد استفاده کمک می کند.
  • اگر داده‌های مشتری در BigQuery باشد، آدرس‌های معتبر یا پرچم‌های اعتبارسنجی می‌توانند مستقیماً در آنجا ذخیره شوند. توجه: چه چیزی را می توان در حافظه پنهان کرد و چگونه در مقاله اعتبار سنجی آدرس با حجم بالا توضیح داده شده است

  • استفاده از Memorystore انعطاف پذیری و توانایی بالاتری برای پردازش آدرس های بیشتر فراهم می کند. این مراحل یک حالت حالت را به کل خط لوله پردازش اضافه می کند که برای مدیریت مجموعه داده های آدرس بسیار بزرگ مورد نیاز است. سایر فناوری‌های پایگاه داده مانند ابر SQL[https://cloud.google.com/sql] یا هر طعم دیگری از پایگاه داده که پلتفرم ابری Google ارائه می‌دهد را می‌توان در اینجا نیز مورد استفاده قرار داد. با این حال، ما معتقدیم که حافظه بی‌عیب، نیازهای مقیاس‌بندی و سادگی را متعادل می‌کند، بنابراین باید اولین انتخاب باشد.

نتیجه

با اعمال الگوهای شرح داده شده در اینجا، می توانید از Address Validation API برای موارد استفاده مختلف و از موارد استفاده مختلف در Google Cloud Platform استفاده کنید.

ما یک کتابخانه Python منبع باز نوشته ایم تا به شما کمک کنیم تا با موارد استفاده که در بالا توضیح داده شد شروع کنید. می توان آن را از یک خط فرمان در رایانه شما فراخوانی کرد یا می توان آن را از Google Cloud Platform یا سایر ارائه دهندگان ابر فراخوانی کرد.

در مورد نحوه استفاده از کتابخانه از این مقاله بیشتر بیاموزید.

مراحل بعدی

وایت پیپر بهبود پرداخت، تحویل و عملیات با آدرس‌های قابل اعتماد را دانلود کنید و با وبینار اعتبارسنجی آدرس بهبود پرداخت، تحویل و عملیات را مشاهده کنید.

پیشنهاد مطالعه بیشتر:

مشارکت کنندگان

گوگل این مقاله را حفظ می کند. مشارکت کنندگان زیر در ابتدا آن را نوشتند.
نویسندگان اصلی:

Henrik Valve | مهندس راه حل
توماس آنگلرت | مهندس راه حل
سرتاک گنگولی | مهندس راه حل