
New theoretical analysis frames deep neural networks as geometric systems, revealing why ReLU's preservation of spatial distance information gives it a decisive edge over sigmoid for deep inference. The geometric perspective offers a principled framework for understanding activation function choices and their real-world cost implications.
मशीन लर्निंग समुदाय एक आश्चर्यजनक रूप से सुरुचिपूर्ण ढांचे के माध्यम से डीप लर्निंग के सबसे मूलभूत विकल्पों में से एक - सक्रियण फ़ंक्शन - पर पुनर्विचार कर रहा है। नया सैद्धांतिक विश्लेषण डीप न्यूरल नेटवर्क को ज्यामितीय प्रणालियों के रूप में प्रस्तुत करता है, जहां प्रत्येक परत एक स्थानिक परिवर्तन के रूप में कार्य करती है जो उच्च-आयामी स्थान में निर्णय सीमाओं को आकार देती है। इस दृष्टिकोण से, क्लासिक सिग्मॉइड बनाम रीलू बहस एक बिल्कुल नया आयाम ले लेती है: यह इस बात का प्रश्न बन जाता है कि प्रत्येक फ़ंक्शन उन स्थानिक संबंधों को कितनी अच्छी तरह संरक्षित करता है जो गहराई को उपयोगी बनाते हैं।
यह महज एक अकादमिक अभ्यास नहीं है। इन निष्कर्षों का अनुमान दक्षता, मॉडल स्केलिंग और गूगल डीपमाइंड, मेटा फेयर और ओपनएआई जैसी कंपनियों के इंजीनियरों द्वारा प्रतिदिन लिए जाने वाले आर्किटेक्चरल निर्णयों पर वास्तविक प्रभाव पड़ता है।
मूल रूप से, यह तर्क देखने में सरल लगता है। एक न्यूरल नेटवर्क को एक ऐसी मशीन के रूप में सोचें जो इनपुट स्पेस को धीरे-धीरे रूपांतरित करती है—उसे मोड़ती, फैलाती और तह करती है जब तक कि विभिन्न वर्गों से संबंधित डेटा बिंदु स्पष्ट निर्णय सीमाओं के विपरीत किनारों पर न आ जाएं। इस क्रमिक परिवर्तन को कई स्तरों पर काम करने के लिए, प्रत्येक स्तर को न केवल यह जानना आवश्यक है कि कोई बिंदु सीमा के किस तरफ आता है, बल्कि यह भी कि वह कितनी दूर है।
वह दूरी— ज्यामितीय संदर्भ —महत्वपूर्ण संकेत है। यह निचली परतों को बताता है कि कोई डेटा बिंदु एक सीमावर्ती मामला है जिसके लिए सूक्ष्म परिशोधन की आवश्यकता है या एक विश्वसनीय वर्गीकरण है जो व्यापक निरूपण को आधार प्रदान कर सकता है। यदि यह संकेत हटा दिया जाए, तो निचली परतें अनिवार्य रूप से अंधेरे में तीर चला रही होंगी।
सिग्मॉइड फ़ंक्शन प्रत्येक वास्तविक संख्या को अंतराल (0, 1) में मैप करता है। यह सुनने में तो सुव्यवस्थित लगता है, लेकिन यह ज्यामितीय तर्क के लिए एक विनाशकारी बाधा उत्पन्न करता है:
इसका कुल प्रभाव यह है कि सिग्मॉइड-आधारित नेटवर्क में अधिक परतें जोड़ने से प्रतिफल घटता जाता है। गहराई एक लाभ के बजाय एक हानि बन जाती है, क्योंकि प्रत्येक परत को उस ज्यामितीय परिदृश्य का एक अपूर्ण संस्करण प्राप्त होता है जिसे उसे परिष्कृत करने की आवश्यकता होती है।
रेक्टिफाइड लीनियर यूनिट ( ReLU ) एक बिल्कुल अलग दृष्टिकोण अपनाती है: यह धनात्मक मानों को अपरिवर्तित रूप से पारित करती है और सभी ऋणात्मक मानों को शून्य कर देती है। इस खंड-रैखिक व्यवहार का एक महत्वपूर्ण ज्यामितीय परिणाम होता है।
स्थानिक परिमाण का यह संरक्षण ही वह कारण है कि रेज़नेट और आधुनिक ट्रांसफ़ॉर्मर वेरिएंट जैसी संरचनाएं परतों को आक्रामक रूप से व्यवस्थित कर सकती हैं। प्रत्येक परत को ऊपरी भाग की ज्यामितीय संरचना का सटीक प्रतिनिधित्व प्राप्त होता है, जिससे यह अधिक सूक्ष्म निर्णय सीमाओं को निर्धारित करने में सक्षम होती है।
उद्योग का ध्यान प्रशिक्षण से अनुमान की ओर स्थानांतरित होने के साथ—बड़े भाषा मॉडल, एज एआई और रीयल-टाइम अनुप्रयोगों की तैनाती से प्रेरित होकर—कमजोर प्रतिनिधित्व की लागत स्पष्ट रूप से दिखाई देने लगती है। यदि एक सक्रियण फ़ंक्शन खोए हुए संदर्भ की भरपाई के लिए नेटवर्क को गहरा या चौड़ा होने के लिए मजबूर करता है, तो इसका सीधा परिणाम उच्च विलंबता, अधिक मेमोरी खपत और बढ़ी हुई ऊर्जा व्यय के रूप में सामने आता है।
कुशल मॉडल डिजाइन की खोज करने वाले अभ्यासकर्ताओं के लिए, यह समझना कि सक्रियण विकल्प एनवीडिया के साथ एक एंड-टू-एंड मॉडल अनुकूलन पाइपलाइन बनाने को कैसे प्रभावित करते हैं, अब वैकल्पिक नहीं है - यह एक प्रतिस्पर्धी आवश्यकता है।
पैमाने पर विचार करें: OpenAI का GPT-4 कथित तौर पर अपने ट्रांसफ़ॉर्मर लेयर्स में GELU एक्टिवेशन ( ReLU का एक सहज सन्निकटन) के विभिन्न रूपों का उपयोग करता है। Google के PaLM परिवार ने भी इसी तरह के विकल्प चुने। ये मनमाने निर्णय नहीं थे। ये इस गहरी समझ को दर्शाते हैं कि प्रत्येक पैरामीटर से अधिकतम प्रतिनिधित्व क्षमता प्राप्त करने के लिए लेयर्स में ज्यामितीय जानकारी को संरक्षित करना आवश्यक है।
सिग्मॉइड ने 1980 और 1990 के दशक में तंत्रिका नेटवर्क अनुसंधान पर अपना वर्चस्व बनाए रखा, मुख्य रूप से इसके उत्कृष्ट गणितीय गुणों और जैविक संभाव्यता के कारण। लेकिन 2010 के दशक में जैसे-जैसे नेटवर्क अधिक जटिल होते गए, इसकी सीमाओं को नजरअंदाज करना असंभव हो गया।
क्रिज़ेव्स्की, सुत्स्केवर और हिंटन द्वारा 2012 में प्रकाशित एलेक्सनेट पेपर एक महत्वपूर्ण मोड़ था। ReLU को अपनाकर, टीम ने ImageNet पर प्रशिक्षण की गति को काफी तेज कर दिया और डीप लर्निंग क्रांति को गति प्रदान की। तब से, इस परिवार में लीकी ReLU, PReLU, ELU, स्विश और GELU शामिल हो गए हैं - ये सभी ReLU की अपनी कमी ("मरते हुए न्यूरॉन की समस्या") को दूर करने के साथ-साथ इसके मुख्य लाभ: परिमाण को संरक्षित करने को बनाए रखने के लिए डिज़ाइन किए गए हैं।
यदि आप यह समझने की कोशिश कर रहे हैं कि ये घटक व्यापक मॉडल आर्किटेक्चर में कैसे फिट होते हैं, तो लैंगएक्सट्रैक्ट के साथ बिल्ड डॉक्यूमेंट इंटेलिजेंस पाइपलाइन का हमारा अवलोकन उपयोगी पृष्ठभूमि प्रदान करता है।
एक्टिवेशन फंक्शन्स को ज्यामितीय ऑपरेटरों के रूप में पुनर्परिभाषित करना पूरी तरह से नया नहीं है - इयान गुडफेलो और योशुआ बेंगियो जैसे शोधकर्ताओं ने लंबे समय से मैनिफोल्ड परिकल्पना पर चर्चा की है, जो यह मानती है कि वास्तविक दुनिया का डेटा उच्च-आयामी अंतरिक्ष में निम्न-आयामी सतहों पर स्थित होता है। नया यह है कि एक्टिवेशन चयन और परतों के पार दूरी-से-सीमा जानकारी के संरक्षण के बीच स्पष्ट संबंध स्थापित किया गया है।
यह परिप्रेक्ष्य न केवल मौजूदा सक्रियणों, बल्कि भविष्य के सक्रियणों के मूल्यांकन के लिए एक सैद्धांतिक मानदंड प्रदान करता है। किसी भी संभावित फ़ंक्शन का आकलन यह पूछकर किया जा सकता है: क्या यह उस ज्यामितीय संदर्भ को संरक्षित करता है या नष्ट करता है जिसकी आवश्यकता अनुगामी परतों को प्रभावी निर्णय सीमाएँ बनाने के लिए होती है?
कई रुझान देखने लायक हैं:
सिग्मॉइड बनाम रीलू की बहस अब कोई सुलझी हुई बात नहीं है — यह एक जीवंत डिज़ाइन निर्णय है जिसके अनुमान लागत, मॉडल की गहराई और प्रतिनिधित्व क्षमता पर स्पष्ट प्रभाव पड़ते हैं। एक्टिवेशन फ़ंक्शंस को ज्यामितीय दृष्टिकोण से देखने पर यह समझने के लिए एक सटीक और सहज ढांचा मिलता है कि रीलू और इसके वंशज आधुनिक डीप लर्निंग में क्यों हावी हैं, और सिग्मॉइड द्वारा स्थानिक संदर्भ का संपीड़न इसे आज की मांग वाली आर्किटेक्चर के लिए तेजी से अनुपयुक्त क्यों बना रहा है।
इंजीनियरों और शोधकर्ताओं के लिए मुख्य निष्कर्ष स्पष्ट है: जब आप एक सक्रियण फ़ंक्शन चुनते हैं, तो आप केवल एक अरैखिकता का चयन नहीं कर रहे होते हैं। आप यह तय कर रहे होते हैं कि आपका नेटवर्क दुनिया की ज्यामितीय संरचना का कितना हिस्सा देख सकता है।