AI को तस्वीरें समझने और बोलने की कला: कार्पेथी की रिसर्च से मिले 5 आश्चर्यजनक सबक

 

AI को तस्वीरें समझने और बोलने की कला: कार्पेथी की रिसर्च से मिले 5 आश्चर्यजनक सबक

Karpathy's research on connecting vision and language in AI


इंसान बड़ी सहजता से अपने आसपास की दुनिया को देखते हैं और भाषा का इस्तेमाल करके उसके बारे में बात करते हैं। हम एक तस्वीर को देखकर तुरंत उसके बारे में बता सकते हैं। लेकिन कंप्यूटर के लिए, दृष्टि और भाषा के बीच इस संबंध को बनाना एक बहुत बड़ी चुनौती है।

यह लेख आंद्रेज कार्पेथी के 2016 के ऐतिहासिक पीएचडी शोध प्रबंध से मिली सीख पर आधारित है, जिसने कई आधुनिक AI सिस्टम की नींव रखी जो आज तस्वीरों और प्राकृतिक भाषा को जोड़ते हैं। यह एक ऐसा मौलिक कार्य था जिसने आज हम जो बड़े पैमाने पर मल्टीमॉडल AI सिस्टम देखते हैं, उनमें से कई का पूर्वाभास दिया। हम इस मूलभूत शोध से निकले पांच सबसे आश्चर्यजनक और प्रभावशाली विचारों को सरल भाषा में समझेंगे।

इस चुनौती के ऐतिहासिक महत्व को समझने के लिए, एलन ट्यूरिंग के 1950 के शब्दों पर गौर करें:

"हम उम्मीद कर सकते हैं कि मशीनें अंततः सभी विशुद्ध रूप से बौद्धिक क्षेत्रों में मनुष्यों के साथ प्रतिस्पर्धा करेंगी। लेकिन शुरुआत करने के लिए सबसे अच्छे कौन से हैं? ... यह भी कहा जा सकता है कि मशीन को सबसे अच्छी ज्ञानेंद्रियाँ प्रदान करना सबसे अच्छा है जो पैसे से खरीदी जा सकती हैं, और फिर उसे अंग्रेजी समझना और बोलना सिखाया जाए। यह प्रक्रिया एक बच्चे के सामान्य शिक्षण का पालन कर सकती है।" – एलन ट्यूरिंग, 1950

१. AI तस्वीरों और शब्दों के लिए एक "साझा भाषा" सीखता है

इस शोध का सबसे मुख्य विचार एक "मल्टीमॉडल एम्बेडिंग स्पेस" (multimodal embedding space) की अवधारणा है। इसे एक वैचारिक नक्शे या एक सार्वभौमिक शब्दकोश के रूप में सोचें, जहाँ दृश्य अवधारणाओं (एक तस्वीर से) और भाषाई अवधारणाओं (एक वाक्य से) दोनों को बिंदुओं (वेक्टर) के रूप में दर्शाया जा सकता है।

यह कोई जादुई नियम प्रोग्राम करके नहीं किया जाता है। इसके बजाय, AI को हजारों तस्वीर-वाक्य जोड़े दिखाए जाते हैं, और यह स्वचालित रूप से उनके बीच के संबंधों को सीखता है। यह सीखने की प्रक्रिया के दौरान होता है, जहाँ मॉडल सभी तस्वीर-वाक्य जोड़ों के लिए एक "मिलान स्कोर" (आंतरिक गुणनफल v^T s के रूप में) की गणना करता है। सही जोड़ों के लिए, यह स्कोर को बढ़ाने के लिए वैक्टर को समायोजित करता है; गलत जोड़ों के लिए, यह उन्हें अलग धकेल कर स्कोर को कम करता है। इस प्रक्रिया के माध्यम से, अगर एक बिल्ली की तस्वीर और "बिल्ली" शब्द इस नक्शे पर एक-दूसरे के करीब आ जाते हैं, तो मॉडल जानता है कि वे मेल खाते हैं।

२. असली जादू पूरी तस्वीर में नहीं, बल्कि विवरण में है

शोध में वर्णित सबसे शक्तिशाली मॉडल सिर्फ पूरी तस्वीर की तुलना पूरे वाक्य से नहीं करते। इसके बजाय, वे दोनों को छोटे-छोटे टुकड़ों में तोड़ देते हैं।

मॉडल एक तस्वीर में प्रमुख क्षेत्रों या वस्तुओं (जैसे कुत्ता, फ्रिसबी) और एक वाक्य में विशिष्ट शब्दों या वाक्यांशों ("कुत्ता कूदता है", "फ्रिसबी") की पहचान करता है। फिर, यह इन संबंधित टुकड़ों को एक साथ संरेखित करता है। उदाहरण के लिए, यह तस्वीर के उस हिस्से को "कुत्ता" शब्द से जोड़ता है जहाँ कुत्ता दिखाई दे रहा है।

एक और आकर्षक बात यह है कि मॉडल शब्दों को महत्व देना सीखता है। जो शब्द देखने में विशिष्ट होते हैं, जैसे "कयाकिंग" या "कद्दू" (pumpkins), उन्हें अधिक प्रभावशाली (उच्च परिमाण वाले) वेक्टर दिए जाते हैं। इसके विपरीत, "लेकिन" या "अब" जैसे सामान्य, कम दृश्य-आधारित शब्दों को जानबूझकर मूल (origin) के पास मैप किया जाता है ताकि मिलान स्कोर पर उनका प्रभाव कम से कम हो। यह महत्वपूर्ण और महत्वहीन शब्दों के बीच का अंतर इस मॉडल के काम करने के तरीके का मूल है।

३. AI नए वाक्य बना सकता है (लेकिन यह थोड़ा दोहराव वाला है)

यह शोध केवल मौजूदा वाक्यों का मिलान करने तक ही सीमित नहीं है, बल्कि यह तस्वीरों के लिए नए वाक्य बनाने की भी क्षमता रखता है। इसके लिए एक ऐसी वास्तुकला (architecture) का उपयोग किया जाता है जहाँ एक कन्волюशनल न्यूरल नेटवर्क (CNN) "आँखों" के रूप में काम करता है और तस्वीर को समझता है। फिर, इसके आउटपुट को एक रिकरेंट न्यूरल नेटवर्क (RNN) में भेजा जाता है, जो "आवाज" के रूप में काम करता है और शब्द-दर-शब्द एक वाक्य उत्पन्न करता है।

इस मॉडल की सबसे बड़ी खूबी यह है कि यह ऐसे नए कैप्शन बना सकता है जो उसने अपने प्रशिक्षण डेटा में कभी नहीं देखे हों। यह सीखे हुए अवधारणाओं को जोड़कर ऐसा करता है (उदाहरण के लिए, "काली शर्ट में आदमी" और "गिटार बजा रहा है" को एक नई तस्वीर के लिए जोड़ना)।

हालांकि, सांख्यिकीय विश्लेषण से पता चलता है कि AI द्वारा उत्पन्न कैप्शन की विविधता इंसानों द्वारा लिखे गए कैप्शन की तुलना में बहुत कम है। उदाहरण के लिए, AI द्वारा उत्पन्न अद्वितीय वाक्य संरचनाओं का अनुपात केवल 8% है, जबकि इंसानों के लिए यह 73% है। इससे भी अधिक चौंकाने वाली बात यह है कि 100 सबसे आम वाक्य संरचनाएं AI द्वारा बनाए गए सभी कैप्शन का 53% हिस्सा हैं, जबकि इंसानों द्वारा लिखे गए कैप्शन में यह केवल 8% है। यह दिखाता है कि मॉडल अक्सर सामान्य टेम्पलेट्स पर ही निर्भर रहता है।

४. आप किसी भी चीज़ को केवल उसका वर्णन करके खोज सकते हैं

अध्याय 5 में "डेंस कैप्शनिंग" (Dense Captioning) नामक एक शक्तिशाली अवधारणा प्रस्तुत की गई है। यह एक ऐसा मॉडल है जो एक तस्वीर के लिए केवल एक कैप्शन बनाने से आगे जाता है। यह एक ही तस्वीर के भीतर कई अलग-अलग चीजों का पता लगाता है और उनका वर्णन करता है।

इसका सबसे शक्तिशाली अनुप्रयोग "ओपन-वर्ल्ड ऑब्जेक्ट डिटेक्शन" है। पारंपरिक ऑब्जेक्ट डिटेक्शन सिस्टम उन श्रेणियों की एक पूर्वनिर्धारित सूची (जैसे "बिल्ली," "कुत्ता," "कार") तक ही सीमित होते हैं जिन पर उन्हें प्रशिक्षित किया गया है। इसके विपरीत, यह विधि कहीं अधिक शक्तिशाली है क्योंकि यह उपयोगकर्ता को "ज़ेबरा के पैर" या "सफेद जूते पहने व्यक्ति" जैसे किसी भी मनमाने वाक्यांश के आधार पर एक विशाल फोटो संग्रह में वस्तुओं को खोजने की अनुमति देती है। आप "जिराफ का सिर," "सफेद टेनिस जूते," या "ज़ेबरा के पैर" जैसी क्वेरी दर्ज कर सकते हैं, और मॉडल उन तस्वीरों को ढूंढ निकालेगा जिनमें ये चीजें मौजूद हैं और उन्हें हाइलाइट भी करेगा।

५. सच्ची समझ अभी भी मीलों दूर है

यह शोध अपनी सीमाओं को स्वीकार करने में भी ईमानदार है। अध्याय 6 में राष्ट्रपति ओबामा की एक तस्वीर का उपयोग करके इस बिंदु को स्पष्ट किया गया है, जिसमें वे एक व्यक्ति के वजन के पैमाने पर चुपके से अपना पैर रख रहे हैं।

एक इंसान इस तस्वीर को देखते ही मज़ाक समझ जाता है। लेकिन AI मॉडल जो कर सकता है और एक इंसान जो समझता है, उसके बीच एक बहुत बड़ी खाई है। AI मॉडल इन अवधारणाओं को समझने में विफल रहेगा:

  • सहज भौतिकी (Intuitive Physics): यह समझना कि एक वजन का पैमाना कैसे काम करता है और उस पर अतिरिक्त दबाव डालने से क्या होगा।
  • सहज मनोविज्ञान (Intuitive Psychology): यह जानना कि पैमाने पर खड़ा व्यक्ति भ्रमित हो जाएगा जब वह अप्रत्याशित रूप से अधिक वजन देखेगा।
  • सामाजिक संदर्भ (Social Context): यह समझना कि यह मज़ाक इसलिए और भी मज़ेदार है क्योंकि इसे एक राष्ट्रपति कर रहे हैं।
  • मन का सिद्धांत (Theory of Mind): यह समझना कि अन्य लोग इस स्थिति को मनोरंजक क्यों पाएंगे।

निष्कर्ष यह है कि यद्यपि ये AI मॉडल पैटर्न पहचानने और उत्पन्न करने में अविश्वसनीय हैं, उनमें दुनिया की उस गहरी, परस्पर जुड़ी, और सामान्य ज्ञान वाली समझ का अभाव है जो मानव बुद्धि को परिभाषित करती है।

आगे का रास्ता

आंद्रेज कार्पेथी का यह शोध दृष्टि और भाषा को जोड़ने की दिशा में एक मूलभूत कदम था। इसने हमें दिखाया कि हम ट्यूरिंग की उस मशीन को बनाने के रास्ते पर हैं जिसे 'सबसे अच्छी ज्ञानेंद्रियाँ प्रदान' की गई हैं और जिसे 'अंग्रेजी समझना और बोलना सिखाया' जा रहा है। लेकिन, जैसा कि ओबामा की तस्वीर वाला उदाहरण दिखाता है, उस मशीन में 'एक बच्चे के सामान्य शिक्षण' जैसी दुनिया की गहरी, सहज समझ विकसित करना अभी भी सबसे बड़ी चुनौती है।

जैसे-जैसे ये AI मॉडल बेहतर होते जा रहे हैं, आपके अनुसार एक ऐसी मशीन के लिए सबसे रोमांचक—या चिंताजनक—अनुप्रयोग क्या हो सकता है जो वास्तव में अपने आसपास की दुनिया को देख और उसके बारे में बात कर सकती है?



#AI #MachineLearning #DeepLearning #AndrejKarpathy #ComputerVision #VisionAndLanguage #NLP #MultimodalAI #AIResearch #टेक्नोलॉजी #एआई

Popular posts from this blog

How AAP’s Delhi Model Kept Electricity Affordable for a Decade (2015-2024)

Why Do Mosquitoes Bite Some People More Than Others? The Science Explained

How Bhagwant Mann’s AAP is Transforming Punjab with Game-Changing 2025 Cabinet Decisions