Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने के लिए डिज़ाइन वाले पैटर्न बनाना

कैंपेन का मकसद

हाई वॉल्यूम पते की पुष्टि ट्यूटोरियल से, आपको उन अलग-अलग स्थितियों में मदद मिली जिनमें ज़्यादा संख्या में पते की पुष्टि करने की सुविधा इस्तेमाल की जा सकती है. इस ट्यूटोरियल में, हम आपको Google Cloud Platform में मौजूद अलग-अलग डिज़ाइन पैटर्न के बारे में बताएंगे. इनकी मदद से, ज़्यादा संख्या में पते की पुष्टि करने की सुविधा चालू की जा सकती है.

हम Google Cloud Platform में, ज़्यादा संख्या में पते की पुष्टि करने की सुविधा चलाने के बारे में खास जानकारी देंगे. इसके लिए, Cloud Run, Compute Engine या Google Kubernetes Engine का इस्तेमाल करना होगा. इसके बाद, हम देखेंगे कि डेटा पाइपलाइन के हिस्से के तौर पर, इस क्षमता को कैसे शामिल किया जा सकता है.

इस लेख के आखिर तक, आपको Google Cloud के एनवायरमेंट में, पते की पुष्टि करने की सुविधा को ज़्यादा संख्या में चलाने के अलग-अलग विकल्पों के बारे में अच्छी तरह से समझ लेना चाहिए.

Google Cloud Platform पर रेफ़रंस आर्किटेक्चर

इस सेक्शन में, Google Cloud Platform का इस्तेमाल करके, 'हाई वॉल्यूम अड्रेस' की पुष्टि करने के लिए, अलग-अलग डिज़ाइन पैटर्न के बारे में ज़्यादा जानकारी दी गई है. Google Cloud Platform पर चलाकर, अपनी मौजूदा प्रोसेस और डेटा पाइपलाइन से इंटिग्रेट किया जा सकता है.

Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने की प्रोसेस एक बार की जा रही है

नीचे Google Cloud Platform पर इंटिग्रेशन बनाने का रेफ़रंस आर्किटेक्चर दिखाया गया है. यह तरीका, एक बार की जाने वाली कार्रवाइयों या टेस्टिंग के लिए ज़्यादा सही है.

इमेज

इस स्थिति में, हमारा सुझाव है कि CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें. इसके बाद, ज़्यादा वॉल्यूम वाले पते की पुष्टि करने वाली स्क्रिप्ट को Cloud Run एनवायरमेंट से चलाया जा सकता है. हालांकि, इसे किसी अन्य रनटाइम एनवायरमेंट, जैसे कि Compute Engine या Google Kubernetes Engine पर चलाया जा सकता है. आउटपुट CSV को Cloud Storage बकेट में भी अपलोड किया जा सकता है.

Google Cloud Platform की डेटा पाइपलाइन के तौर पर चल रहा है

पिछले सेक्शन में दिखाया गया डिप्लॉयमेंट पैटर्न, एक बार इस्तेमाल करने के लिए, हाई वॉल्यूम पते की पुष्टि करने की सुविधा को तेज़ी से टेस्ट करने का बेहतरीन तरीका है. हालांकि, अगर आपको डेटा पाइपलाइन के हिस्से के तौर पर नियमित रूप से इसका इस्तेमाल करना है, तो इसे और ज़्यादा बेहतर बनाने के लिए Google Cloud Platform की स्थानीय क्षमताओं का बेहतर ढंग से इस्तेमाल किया जा सकता है. इनमें ये बदलाव किए जा सकते हैं:

इमेज

  • ऐसी स्थिति में, CSV फ़ाइलों को Cloud Storage बकेट में डंप किया जा सकता है.
  • डेटाफ़्लो जॉब प्रोसेस किए जाने वाले पतों को चुन सकता है और फिर BigQuery में कैश मेमोरी में सेव कर सकता है.
  • Dataflow Python लाइब्रेरी का दायरा बढ़ाया जा सकता है, ताकि Dataflow जॉब के पतों की पुष्टि करने के लिए, High Volume पते की पुष्टि करने वाले लॉजिक का इस्तेमाल किया जा सके.

लंबे समय तक चलने वाली बार-बार होने वाली प्रोसेस के रूप में, डेटा पाइपलाइन से स्क्रिप्ट चलाना

एक और सामान्य तरीका है, स्ट्रीमिंग डेटा पाइपलाइन के हिस्से के तौर पर कई पतों की पुष्टि करना. यह बार-बार होने वाली प्रोसेस है. आपके पास bigquery डेटास्टोर में भी पते हो सकते हैं. इस तरीके में, हम डेटा की बार-बार होने वाली पाइपलाइन बनाने का तरीका जानेंगे. इसे हर दिन, हर हफ़्ते/हर महीने ट्रिगर करना होगा.

इमेज

  • Cloud Storage बकेट में शुरुआती CSV फ़ाइल अपलोड करें.
  • लंबे समय तक चलने वाली प्रोसेस को बीच के लेवल पर बनाए रखने के लिए, Memorystore को स्थायी डेटास्टोर के तौर पर इस्तेमाल करें.
  • BigQuery डेटा स्टोर में आखिरी पतों को कैश मेमोरी में सेव करें.
  • स्क्रिप्ट को समय-समय पर चलाने के लिए, क्लाउड शेड्यूलर सेट अप करें.

इस आर्किटेक्चर के ये फ़ायदे हैं:

  • Cloud Scheduler का इस्तेमाल करके, पते की पुष्टि समय-समय पर की जा सकती है. शायद आप हर महीने के हिसाब से पतों की दोबारा पुष्टि करना चाहें या हर महीने/तिमाही आधार पर किसी नए पते की पुष्टि करना चाहें. इस आर्किटेक्चर से, इस्तेमाल के उदाहरण को हल करने में मदद मिलती है.
  • अगर ग्राहक से जुड़ा डेटा BigQuery में है, तो पुष्टि किए गए पतों या पुष्टि वाले फ़्लैग को सीधे वहीं कैश मेमोरी में सेव किया जा सकता है. ध्यान दें: किस तरह की जानकारी को कैश मेमोरी में सेव किया जा सकता है और इस बारे में, ज़्यादा वॉल्यूम वाले पते की पुष्टि से जुड़े लेख में बताया गया है

  • Memorystore का इस्तेमाल करने पर, ज़रूरत के हिसाब से डेटा को प्रोसेस करने में आसानी होती है. साथ ही, ज़्यादा पतों को प्रोसेस किया जा सकता है. यह चरण पूरी प्रोसेसिंग पाइपलाइन में एक स्टेटफ़ुलनेस जोड़ देता है, जो पते के बहुत बड़े डेटासेट को हैंडल करने के लिए ज़रूरी है. अन्य डेटाबेस टेक्नोलॉजी, जैसे कि Cloud SQL[https://cloud.google.com/sql] या Google Cloud Platform के किसी भी अन्य फ़्लेवर वाला डेटाबेस. इसका इस्तेमाल यहां भी किया जा सकता है. हालांकि, हमारा मानना है कि मेमोरीस्टोर का पूरा फ़ायदा, स्केलिंग और सादगी की ज़रूरत के हिसाब से सही होगा. इसलिए, हमारा मानना है कि यह हमारा पहला विकल्प होना चाहिए.

नतीजा

यहां बताए गए पैटर्न को लागू करके, पते की पुष्टि करने वाले एपीआई का इस्तेमाल अलग-अलग कामों के लिए किया जा सकता है. साथ ही, Google Cloud Platform पर इस्तेमाल के अलग-अलग उदाहरणों के लिए भी इसका इस्तेमाल किया जा सकता है.

हमने एक ओपन सोर्स Python लाइब्रेरी लिखी है, ताकि आप ऊपर बताए गए इस्तेमाल के उदाहरणों को समझने में मदद पा सकें. इसे आपके कंप्यूटर पर मौजूद किसी कमांड लाइन से शुरू किया जा सकता है. इसके अलावा, इसे Google Cloud Platform या क्लाउड सेवा देने वाली अन्य कंपनियों से भी शुरू किया जा सकता है.

इस लेख से, लाइब्रेरी का इस्तेमाल करने के तरीके के बारे में ज़्यादा जानें.

अगले चरण

भरोसेमंद पते की मदद से चेकआउट, डिलीवरी, और कार्रवाइयों को बेहतर बनाने के लिए व्हाइट पेपर डाउनलोड करें. साथ ही, पते की पुष्टि करने की सुविधा की मदद से, चेकआउट, डिलीवरी, और कार्रवाइयों को बेहतर बनाना वेबिनार देखें.

आगे पढ़ने का सुझाव:

योगदानकर्ता

Google इस लेख को सेव रखता है. मूल रूप से इन योगदान देने वालों ने इसे लिखा है.
मुख्य लेखक:

हेनरिक वाल्व | सॉल्यूशन इंजीनियर
थॉमस एंगलरेट | सलूशन इंजीनियर
सरथक गांगुली | सलूशन इंजीनियर