أنماط تصميم للتحقق من صحة العناوين ذات الحجم الكبير على Google Cloud Platform

الهدف

يقدّم لك البرنامج التعليمي التحقّق من صحة العناوين لأعداد كبيرة توجيهات خلال سيناريوهات مختلفة يمكن فيها استخدام عملية التحقّق من صحة العناوين الكبيرة الحجم. في هذا البرنامج التعليمي، سنقدم لك أنماط التصميم المختلفة في Google Cloud Platform لتشغيل ميزة التحقق من العناوين ذات الحجم الكبير.

وسنبدأ بنظرة عامة حول تشغيل ميزة "التحقق من صحة العنوان على حجم كبير" في Google Cloud Platform باستخدام Cloud Run أو Compute Engine أو Google Kubernetes Engine لعمليات التنفيذ لمرة واحدة. سنرى بعد ذلك كيف يمكن تضمين هذه الإمكانية كجزء من مسار البيانات.

بنهاية هذه المقالة، من المفترض أن تكون على دراية جيدة بالخيارات المختلفة لتشغيل ميزة "التحقق من العنوان" بحجم كبير في بيئة Google Cloud.

البنية المرجعية على Google Cloud Platform

يتعمق هذا القسم في تفاصيل أنماط التصميم المختلفة للتحقق من صحة العنوان بكميات كبيرة باستخدام Google Cloud Platform. من خلال التشغيل على Google Cloud Platform، يمكنك الدمج مع العمليات ومسارات البيانات الحالية.

إجراء التحقق من العناوين ذات الحجم الكبير مرة واحدة على Google Cloud Platform

يظهر أدناه بنية مرجعية لطريقة إنشاء عملية دمج على Google Cloud Platform تكون أكثر ملاءمةً للعمليات أو الاختبارات لمرة واحدة.

صورة

في هذه الحالة، ننصحك بتحميل ملف CSV إلى حزمة Cloud Storage. ويمكن بعد ذلك تشغيل النص البرمجي للتحقق من صحة العنوان لحجم كبير من خلال بيئة التشغيل على السحابة الإلكترونية. مع ذلك، يمكنك تنفيذ ذلك في أي بيئة تشغيل أخرى، مثل Compute Engine أو Google Kubernetes Engine. يمكن أيضًا تحميل ملف CSV الناتج إلى حزمة Cloud Storage.

العمل كمسار بيانات Google Cloud Platform

ويُعدّ نمط النشر الموضّح في القسم السابق رائعًا لاختبار ميزة "التحقّق من صحة العنوان عالي الحجم" للاستخدام مرة واحدة فقط. ومع ذلك، إذا كنت بحاجة إلى استخدامه بانتظام كجزء من مسار البيانات، يمكنك الاستفادة بشكل أفضل من إمكانات Google Cloud Platform الأصلية لجعلها أكثر قوة. في ما يلي بعض التغييرات التي يمكنك إجراؤها:

صورة

  • في هذه الحالة، يمكنك تفريغ ملفات CSV في مجموعات بيانات Cloud Storage.
  • يمكن لمهمة تدفق البيانات اختيار العناوين التي ستتم معالجتها ثم تخزينها مؤقتًا في BigQuery.
  • يمكن توسيع مكتبة Dataflow Python لتتضمّن منطق "التحقق من صحة العناوين ذات الحجم الكبير" للتحقق من صحة العناوين من مهمة Dataflow.

تشغيل النص البرمجي من مسار بيانات كعملية متكررة طويلة الأمد

هناك نهج آخر شائع يتمثل في التحقق من صحة مجموعة من العناوين كجزء من تدفق بيانات تدفق البيانات كعملية متكررة. قد يكون لديك أيضًا العناوين في مخزن بيانات BigQuery. في هذا النهج، سنتعرف على كيفية إنشاء مسار بيانات متكرر (يجب تشغيله يوميًا/أسبوعيًا/شهريًا)

صورة

  • حمِّل ملف CSV الأولي إلى حزمة Cloud Storage.
  • استخدِم Memorystore كمخزن بيانات دائم للحفاظ على حالة متوسطة طوال العملية التي تستغرق وقتًا طويلاً.
  • تخزين العناوين النهائية في ذاكرة التخزين المؤقت في مخزن بيانات BigQuery
  • عليك إعداد أداة جدولة Cloud لتشغيل النص البرمجي بشكل دوري.

تتمتع هذه البنية بالمزايا التالية:

  • يمكن التحقق من العنوان بشكل دوري باستخدام Cloud Scheduler. يمكنك إعادة التحقق من العناوين شهريًا أو التحقق من صحة أي عناوين جديدة على أساس شهري أو ربع سنوي. تساعد هذه البنية في حل حالة الاستخدام هذه.
  • إذا كانت بيانات العملاء متوفّرة في BigQuery، يمكن تخزين العناوين التي تم التحقّق من صحتها أو علامات التحقّق مؤقتًا هناك مباشرةً. ملاحظة: ما يمكن تخزينه مؤقتًا وكيف يمكن توضيحه في التفاصيل في مقالة "التحقق من صحة العنوان لأحجام كبيرة من الحجم"

  • يوفر استخدام Memorystore مرونة أكبر وقدرة أعلى على معالجة المزيد من العناوين. تضيف هذه الخطوات حالة إلى مسار المعالجة بالكامل، وهو مطلوب للتعامل مع مجموعات بيانات العناوين الكبيرة جدًا. تكنولوجيات قواعد البيانات الأخرى مثل Cloud SQL [https://cloud.google.com/sql] أو أي نكهة قاعدة بيانات أخرى يوفرها Google Cloud Platform يمكن استخدامها هنا أيضًا. ومع ذلك، نعتقد أنّ مخزن الذاكرة يوازن بين احتياجات التوسيع والبساطة، وبالتالي يجب أن يكون الخيار الأول.

الخلاصة

من خلال تطبيق الأنماط المُوضَّحة هنا، يمكنك استخدام واجهة برمجة تطبيقات التحقّق من صحة العناوين لحالات الاستخدام المختلفة وحالات الاستخدام المختلفة على Google Cloud Platform.

لقد كتبنا مكتبة Python مفتوحة المصدر لمساعدتك في بدء حالات الاستخدام الموضحة أعلاه. ويمكن استدعاؤه من سطر أوامر على جهاز الكمبيوتر أو من خلال Google Cloud Platform أو من مقدّمي خدمات السحابة الإلكترونية الآخرين.

يمكنك الاطّلاع على مزيد من المعلومات حول كيفية استخدام المكتبة من هذه المقالة.

الخطوات التالية

يمكنك تنزيل المستند الموجز حول تحسين عمليات الدفع والتسليم والعمليات من خلال عناوين موثوقة والاطّلاع على البرنامج التعليمي على الويب تحسين عمليات الدفع والتسليم والعمليات من خلال التحقق من العنوان .

اقترحت مزيدًا من القراءة:

المساهمون

تحتفظ Google بهذه المقالة. كتب المساهمون التالي ذكرهم في الأصل.
المؤلفون الرئيسيون:

هنريك فالف | مهندس حلول
توماس أنغلاريت | مهندس حلول
سارثاك غانغولي | مهندس حلول