कोड लिखने वाले AI के बारे में 5 चौंकाने वाले सच जो हर डेवलपर को जानना चाहिए

परिचय: AI कोडिंग असिस्टेंट का वादा और अनकहा सच

GitHub Copilot जैसे AI-संचालित कोडिंग सहायकों ने सॉफ्टवेयर विकास की दुनिया में तूफान ला दिया है। उत्साह स्पष्ट है, और अच्छे कारण के लिए भी। GitHub द्वारा किए गए अध्ययनों से पता चलता है कि ये उपकरण उत्पादकता में उल्लेखनीय वृद्धि कर सकते हैं। डेवलपर्स भविष्य कहनेवाला पाठ का उपयोग करके कार्यों को 55% तेजी से पूरा कर सकते हैं, और कोड को मर्ज करने में लगने वाले समय में 50% की कमी देखी गई है। ये आंकड़े एक ऐसे भविष्य का वादा करते हैं जहां दोहराए जाने वाले कोडिंग कार्यों को स्वचालित किया जाता है, जिससे डेवलपर्स अधिक जटिल समस्याओं को हल करने पर ध्यान केंद्रित कर सकते हैं।

लेकिन इस चमकदार सतह के नीचे एक उच्च-दांव वाला समझौता है जिसके बारे में उद्योग खुले तौर पर चर्चा नहीं कर रहा है: गति और लचीलेपन के बीच का समझौता। उत्पादकता के वादों से परे, AI-जनरेटेड कोड की वास्तविकता कहीं अधिक जटिल और जोखिम भरी है। यह लेख उन कुछ सबसे प्रभावशाली और अप्रत्याशित सच्चाइयों पर प्रकाश डालेगा जो हर डेवलपर को इन शक्तिशाली नए उपकरणों के बारे में जानना चाहिए।

--------------------------------------------------------------------------------

1. AI अक्सर असुरक्षित कोड लिखता है—अध्ययनों से पता चलता है कि लगभग आधा कोड बग्स से भरा होता है

सेंटर फॉर सिक्योरिटी एंड इमर्जिंग टेक्नोलॉजी (CSET) की एक रिपोर्ट एक गंभीर वास्तविकता को उजागर करती है: अकादमिक और उद्योग अनुसंधान लगातार दिखाते हैं कि AI कोड जनरेशन मॉडल अक्सर असुरक्षित कोड का उत्पादन करते हैं। जबकि ये उपकरण कार्यात्मक कोड लिखने में उत्कृष्ट हो सकते हैं, वे अक्सर गंभीर सुरक्षा खामियों को नजरअंदाज कर देते हैं, जो एक खतरनाक अनदेखी है।

सबूत स्पष्ट हैं:

CSET के अपने मूल्यांकन में, पाँच अलग-अलग LLMs द्वारा उत्पन्न लगभग आधे कोड स्निपेट में ऐसे बग्स थे जो संभावित रूप से दुर्भावनापूर्ण शोषण का कारण बन सकते थे।
Pearce et al. (2021) के एक अध्ययन में पाया गया कि GitHub Copilot द्वारा उत्पन्न लगभग 40% प्रोग्राम असुरक्षित थे।
Khoury et al. (2023) के एक अन्य अध्ययन में पाया गया कि ChatGPT द्वारा उत्पन्न 21 में से केवल पाँच प्रोग्राम शुरू में सुरक्षित थे।

यह समस्या इसलिए उत्पन्न होती है क्योंकि इन मॉडलों को GitHub जैसे ओपन-सोर्स रिपॉजिटरी पर प्रशिक्षित किया जाता है, जिनमें ज्ञात कमजोरियों वाला मानव-लिखित कोड होता है। अनिवार्य रूप से, AI उन गलतियों को सीखता और दोहराता है जो इंसानों ने पहले से ही की हैं। इसका मतलब है कि अगर डेवलपर AI सुझावों पर आँख बंद करके भरोसा करते हैं, तो वे अनजाने में अपने प्रोजेक्ट्स में कमजोरियों को शामिल कर सकते हैं।

--------------------------------------------------------------------------------

2. एक "बेहतर" AI का मतलब जरूरी नहीं कि "अधिक सुरक्षित" AI हो

AI की दुनिया में, 'बड़ा' हमेशा 'बेहतर' के रूप में बेचा जाता है। फिर भी, उभरता हुआ शोध एक चौंकाने वाले विरोधाभास का खुलासा करता है जो हर डेवलपर को चिंतित करना चाहिए: जब कोड जनरेशन की बात आती है, तो सबसे उन्नत AI वास्तव में सबसे खतरनाक हो सकता है।

कई डेवलपर्स गलती से यह मान लेते हैं कि एक बड़ा, अधिक उन्नत AI मॉडल स्वाभाविक रूप से हर पहलू में बेहतर होगा, जिसमें सुरक्षा भी शामिल है। हालांकि, CSET रिपोर्ट में उल्लिखित 2023 के मेटा अध्ययन में पाया गया कि "अधिक उन्नत कोडिंग क्षमताओं वाले मॉडल असुरक्षित कोड आउटपुट करने की अधिक संभावना रखते थे।"

यह एक परेशान करने वाली संभावना का सुझाव देता है: जैसे-जैसे मॉडलों को कार्यक्षमता में सुधार के लिए बड़े और अधिक जटिल कोडबेस पर प्रशिक्षित किया जाता है, वे अधिक परिष्कृत लेकिन अस्पष्ट कमजोरियों को आत्मसात कर सकते हैं जिनका सामना सरल मॉडल कभी नहीं करते। यह खोज इस धारणा को चुनौती देती है कि कार्यक्षमता और सुरक्षा एक साथ चलते हैं, और यह उद्योग के इस अंतर्निहित विरोधाभास को उजागर करता है कि डेवलपर्स को हमेशा सबसे शक्तिशाली उपकरणों का उपयोग करने के लिए प्रोत्साहित किया जाता है, भले ही वे सबसे सुरक्षित न हों।

--------------------------------------------------------------------------------

3. मानवीय पूर्वाग्रह: हम AI-जनरेटेड कोड को वास्तव में जितना सुरक्षित है, उससे कहीं ज़्यादा सुरक्षित मानते हैं

AI द्वारा उत्पन्न सबसे बड़े जोखिमों में से एक तकनीकी नहीं, बल्कि एक मनोवैज्ञानिक जाल है। "ऑटोमेशन बायस" नामक एक घटना के कारण, हम मनुष्यों द्वारा लिखे गए आउटपुट की तुलना में AI-जनरेटेड आउटपुट पर अधिक भरोसा करते हैं। हम मानते हैं कि मशीनें कम गलतियाँ करती हैं, जिससे खतरनाक निरीक्षण हो सकता है।

CSET रिपोर्ट के निष्कर्ष इस पूर्वाग्रह को स्पष्ट रूप से उजागर करते हैं:

एक उद्योग सर्वेक्षण में, 76% उत्तरदाताओं ने कहा कि AI कोड मानव कोड से अधिक सुरक्षित है।
Perry et al. (2023) के एक उपयोगकर्ता अध्ययन से पता चला कि जिन प्रतिभागियों के पास AI सहायक था, उन्होंने बिना सहायक वाले प्रतिभागियों की तुलना में काफी कम सुरक्षित कोड लिखा, और उन्हें यह विश्वास होने की अधिक संभावना थी कि उन्होंने सुरक्षित कोड लिखा है।

यह एक खतरनाक संयोजन है: AI जो असुरक्षित कोड उत्पन्न करता है और उपयोगकर्ता जो उस कोड को सुरक्षित मानने के लिए मनोवैज्ञानिक रूप से प्रवृत्त होते हैं। जैसा कि CSET रिपोर्ट में कहा गया है:

"...AI कोडिंग उपकरण अनुभवहीन उपयोगकर्ताओं को सुरक्षा की झूठी भावना प्रदान कर सकते हैं, जिसके साइबर सुरक्षा निहितार्थ हैं यदि AI-जनरेटेड कोड पर अधिक भरोसा किया जाता है और सुरक्षा खामियों के लिए कम जांच की जाती है।"

गलती केवल AI की नहीं है; यह इस बारे में भी है कि हम इसके आउटपुट पर कैसे प्रतिक्रिया करते हैं। यह मानवीय पूर्वाग्रह गंभीर सुरक्षा कमजोरियों को उत्पादन में प्रवेश करने की अनुमति दे सकता है।

--------------------------------------------------------------------------------

4. हम गलत चीज़ों को माप रहे हैं: प्रदर्शन बेंचमार्क सुरक्षा की उपेक्षा करते हैं

AI द्वारा अक्सर असुरक्षित कोड उत्पन्न करने का कारण केवल मॉडल में एक दोष नहीं है, बल्कि यह सफलता को मापने के तरीके में एक मौलिक दोष है। उद्योग प्रदर्शन को मापने और रैंक करने के लिए बेंचमार्क पर बहुत अधिक निर्भर करता है, लेकिन ये बेंचमार्क एक महत्वपूर्ण पहलू की उपेक्षा करते हैं: सुरक्षा।

एक प्रमुख और व्यापक रूप से उपयोग किया जाने वाला बेंचमार्क HumanEval है, जिसे OpenAI द्वारा बनाया गया था। HumanEval का उपयोग अक्सर यह रैंक करने के लिए किया जाता है कि कोई मॉडल कार्यात्मक कोड लिखने में कितना अच्छा है। समस्या यह है कि, जैसा कि CSET रिपोर्ट में कहा गया है, HumanEval जैसे बेंचमार्क "अक्सर मॉडल की कार्यात्मक कोड का उत्पादन करने की क्षमता पर ध्यान केंद्रित करते हैं लेकिन सुरक्षित कोड उत्पन्न करने की उनकी क्षमता का आकलन नहीं करते हैं।"

यह एक विकृत प्रोत्साहन पैदा करता है। यह एक फीडबैक लूप बनाता है जहां AI कंपनियां HumanEval जैसे मेट्रिक्स पर प्रतिस्पर्धा करती हैं, जिससे कार्यक्षमता के लिए हथियारों की दौड़ होती है जबकि सुरक्षा एक माध्यमिक चिंता बनी रहती है। जब तक सुरक्षा को मूल्यांकन प्रक्रिया का एक मुख्य हिस्सा नहीं बनाया जाता, तब तक AI मॉडल ऐसे कोड का उत्पादन करना जारी रखेंगे जो काम करता है लेकिन संभावित रूप से खतरनाक है।

--------------------------------------------------------------------------------

5. कानूनी दुःस्वप्न: AI कोड जनरेटर कॉपीराइट और लाइसेंस का उल्लंघन कर सकते हैं

उत्पादकता और सुरक्षा से परे, AI-जनरेटेड कोड का उपयोग करने में एक महत्वपूर्ण कानूनी और नैतिक जोखिम है जो सीधे डेवलपर पर पड़ता है। ये मॉडल अक्सर ओपन-सोर्स कोड पर प्रशिक्षित होते हैं जो विशिष्ट लाइसेंस के तहत जारी किए जाते हैं, और वे उन लाइसेंसों का उल्लंघन कर सकते हैं।

GitHub Copilot के खिलाफ मुकदमे में यह तर्क दिया गया है कि AI मॉडल अक्सर ओपन-सोर्स लाइसेंस की शर्तों का उल्लंघन करके कोड का पुनरुत्पादन करते हैं। मुकदमा इस बात पर प्रकाश डालता है कि GitHub Copilot "सुझाव दे सकता है... कोड के बड़े ब्लॉक बिना Copilot उपयोगकर्ता को सचेत किए कि कोड केवल उसके ओपन-सोर्स लाइसेंस की शर्तों के अधीन प्रयोग करने योग्य है।" इसका मतलब है कि एक डेवलपर अनजाने में अपने प्रोजेक्ट में ऐसे कोड को शामिल कर सकता है जो कॉपीराइट का उल्लंघन करता है या लाइसेंसिंग आवश्यकताओं को पूरा नहीं करता है।

और संदेह से बचने के लिए, जिम्मेदारी सीधे डेवलपर पर आती है। जैसा कि Copilot के FAQ में स्पष्ट रूप से कहा गया है: "आप GitHub Copilot की मदद से लिखे गए कोड के लिए जिम्मेदार हैं।" यह प्रभावी रूप से डेवलपर्स को बहु-अरब डॉलर के निगमों के लिए अनजाने कानूनी ढाल में बदल देता है, जिससे वे उन उपकरणों के बौद्धिक संपदा उल्लंघनों के लिए व्यक्तिगत रूप से जिम्मेदार हो जाते हैं जिनका उपयोग करने के लिए उन्हें प्रोत्साहित किया जाता है।

--------------------------------------------------------------------------------

निष्कर्ष: स्मार्ट बनें, संदेह करें, और हमेशा सत्यापित करें

AI कोडिंग सहायक निस्संदेह शक्तिशाली उपकरण हैं जो विकास को गति दे सकते हैं। लेकिन जैसा कि हमने देखा है, वे अक्सर असुरक्षित कोड लिखते हैं, एक "बेहतर" मॉडल जरूरी नहीं कि सुरक्षित हो, हम उन पर बहुत अधिक भरोसा करते हैं, उनका मूल्यांकन त्रुटिपूर्ण बेंचमार्क के साथ किया जाता है, और वे महत्वपूर्ण कानूनी जोखिम पैदा करते हैं।

इन उपकरणों को अचूक विशेषज्ञों के रूप में नहीं, बल्कि भागीदार के रूप में देखा जाना चाहिए - ऐसे भागीदार जिनकी गलतियाँ करने की प्रवृत्ति होती है। हर डेवलपर की जिम्मेदारी है कि वह सतर्क रहे। AI द्वारा सुझाए गए किसी भी कोड की समीक्षा, परीक्षण और सत्यापन करें, जैसे आप किसी जूनियर डेवलपर के कोड की समीक्षा करेंगे। AI-संचालित उत्पादकता का वादा वास्तविक है, लेकिन यह मुफ़्त नहीं है। कीमत सतर्कता है। इसके बिना, हम भविष्य को असुरक्षित, पक्षपाती और कानूनी रूप से जोखिम भरे कोड की नींव पर बनाने का जोखिम उठाते हैं।

जैसे-जैसे हम अपने सबसे महत्वपूर्ण सॉफ़्टवेयर को बनाने के लिए AI पर अधिक निर्भर होते जाते हैं, हमें खुद से यह विचारोत्तेजक प्रश्न पूछना चाहिए: क्या हम अनजाने में एक अधिक नाजुक और असुरक्षित डिजिटल दुनिया का निर्माण कर रहे हैं?

#OpenAICodex #AICoding #GPT5 #AISoftwareEngineering #MachineLearning #AIResearch #CodingAutomation #DeepLearning #TechAnalysis #PhDLevelContent

Search This Blog

Research Articles AI, science, governance