नुकसान में कमी: स्टोकेस्टिक ग्रेडिएंट वंशानुक्रम

ग्रेडिएंट डिसेंट में, बैच उदाहरणों का सेट होता है, जिसका इस्तेमाल किसी ट्रेनिंग इटरेशन में ग्रेडिएंट का हिसाब लगाने के लिए किया जाता है. अब तक, हमने यह माना है कि बैच में पूरा डेटा सेट है. Google के पैमाने पर काम करते समय, डेटा सेट में अक्सर अरबों या करोड़ों उदाहरण होते हैं. इसके अलावा, Google डेटा सेट में अक्सर बहुत ज़्यादा सुविधाएं होती हैं. ऐसे में, एक बैच बहुत बड़ा हो सकता है. बहुत बड़े बैच की वजह से, बार-बार होने वाली प्रोसेस को कंप्यूट करने में बहुत ज़्यादा समय लग सकता है.

रैंडम तरीके से सैंपल किए गए उदाहरणों वाले बड़े डेटा सेट में शायद ग़ैर-ज़रूरी डेटा मौजूद होता है. वास्तव में, बैच का साइज़ बढ़ने के साथ रिडंडंसी की संभावना भी बढ़ जाएगी. कुछ रिडंडंसी से, शोर वाले ग्रेडिएंट को कम करने में मदद मिल सकती है. हालांकि, बहुत ज़्यादा बैच में, बड़े बैच की तुलना में ज़्यादा अनुमानित वैल्यू नहीं होती है.

क्या होगा अगर हम बहुत कम कंप्यूटेशन के लिए औसतन सही ग्रेडिएंट पा सकें? अपने डेटा सेट से बिना किसी क्रम के उदाहरण चुनकर, हम बहुत छोटे डेटा सेट से बड़े औसत का अनुमान (भले ही, शोर-शराबे के साथ) लगा सकते हैं. स्टोकेस्टिक ग्रेडिएंट डीसेंट (SGD) इस आइडिया को सबसे ज़्यादा समझता है--इसमें हर बार बदलाव करने पर सिर्फ़ एक उदाहरण (1 का बैच साइज़) इस्तेमाल किया जाता है. बार-बार इस्तेमाल किए जाने को देखते हुए, सिंगापुर का संगीत बेहतर तरीके से काम करता है, लेकिन इसमें काफ़ी शोर है. "स्टोकेस्टिक" शब्द का मतलब है कि हर बैच को शामिल करने वाले एक उदाहरण को बिना किसी क्रम के चुना गया है.

मिनी-बैच स्टोकेस्टिक ग्रेडिएंट डिसेंट (mini-batch SGD) फ़ुल-बैच इटरेशन और एसजीडी के बीच एक समझौता है. एक मिनी-बैच आम तौर पर 10 से 1,000 उदाहरणों के बीच होता है. इसे बिना किसी क्रम के चुना जाता है. मिनी-बैच SGD, सिंगापुर में शोर को कम करता है, लेकिन फ़ुल-बैच के मुकाबले ज़्यादा बेहतर है.

आसान शब्दों में जानकारी देने के लिए, हमने एक सुविधा के लिए ग्रेडिएंट डिसेंट पर फ़ोकस किया है. भरोसा रखें, ग्रेडिएंट डिसेंट सुविधा उन फ़ीचर सेट पर भी काम करती है जिनमें कई सुविधाएं होती हैं.