Skip to main content

Posts

Showing posts with the label METR Analysis

AI की दुनिया का नया 'मूर का नियम': 5 चौंकाने वाली बातें जो भविष्य बदल देंगी

  AI की दुनिया का नया 'मूर का नियम': 5 चौंकाने वाली बातें जो भविष्य बदल देंगी परिचय: AI का सबसे बड़ा विरोधाभास ऐसा कैसे हो सकता है कि एक AI जो दुनिया की सबसे कठिन परीक्षाएँ, जैसे कि बार एग्जाम या मेडिकल टेस्ट, पास कर सकता है, वह आपके लिए विश्वसनीय रूप से कुछ ईमेल का जवाब देने और मीटिंग शेड्यूल करने जैसे सरल काम भी नहीं कर सकता? यह आज के AI का सबसे बड़ा विरोधाभास है। इसका कारण यह है कि पारंपरिक बेंचमार्क, जैसे परीक्षा स्कोर, AI की वास्तविक दुनिया की क्षमताओं को मापने में विफल रहते हैं। वे AI के 'ज्ञान' का परीक्षण तो करते हैं, लेकिन लंबी, बहु-चरणीय परियोजनाओं, जिन्हें अकादमिक भाषा में 'लॉन्ग-हॉरिजन टास्क' कहा जाता है, के लिए आवश्यक 'दृढ़ता', योजना और त्रुटि-सुधार का नहीं। लेकिन अब, शोधकर्ताओं ने AI की प्रगति को मापने का एक नया, शक्तिशाली तरीका खोजा है जो इस विरोधाभास को हल करता है। यह तरीका सिर्फ यह नहीं मापता कि AI 'क्या' जानता है, बल्कि यह मापता है कि वह 'कितनी देर तक' किसी काम को सफलतापूर्वक कर सकता है। यह बदलाव सिर्फ एक नया बेंचमार्क नह...

AI की दुनिया का नया 'मूर का नियम': 5 चौंकाने वाली बातें जो भविष्य बदल देंगी

  AI की दुनिया का नया 'मूर का नियम': 5 चौंकाने वाली बातें जो भविष्य बदल देंगी परिचय: AI का सबसे बड़ा विरोधाभास ऐसा कैसे हो सकता है कि एक AI जो दुनिया की सबसे कठिन परीक्षाएँ, जैसे कि बार एग्जाम या मेडिकल टेस्ट, पास कर सकता है, वह आपके लिए विश्वसनीय रूप से कुछ ईमेल का जवाब देने और मीटिंग शेड्यूल करने जैसे सरल काम भी नहीं कर सकता? यह आज के AI का सबसे बड़ा विरोधाभास है। इसका कारण यह है कि पारंपरिक बेंचमार्क, जैसे परीक्षा स्कोर, AI की वास्तविक दुनिया की क्षमताओं को मापने में विफल रहते हैं। वे AI के 'ज्ञान' का परीक्षण तो करते हैं, लेकिन लंबी, बहु-चरणीय परियोजनाओं, जिन्हें अकादमिक भाषा में 'लॉन्ग-हॉरिजन टास्क' कहा जाता है, के लिए आवश्यक 'दृढ़ता', योजना और त्रुटि-सुधार का नहीं। लेकिन अब, शोधकर्ताओं ने AI की प्रगति को मापने का एक नया, शक्तिशाली तरीका खोजा है जो इस विरोधाभास को हल करता है। यह तरीका सिर्फ यह नहीं मापता कि AI 'क्या' जानता है, बल्कि यह मापता है कि वह 'कितनी देर तक' किसी काम को सफलतापूर्वक कर सकता है। यह बदलाव सिर्फ एक नया बेंचमार्क नह...