OpenAI: नई प्रक्रिया-पर्यवेक्षित इनाम मॉडलिंग एआई रीज़निंग में सुधार करती है
संक्षेप में
OpenAIप्रक्रिया-पर्यवेक्षित इनाम मॉडलिंग (पीआरएम) का उद्देश्य एआई मॉडल के मध्यवर्ती चरणों और तर्क का मूल्यांकन करना है, जिससे प्रदर्शन और मेट्रिक्स में सुधार होता है।
OpenAI प्रक्रिया-पर्यवेक्षित इनाम मॉडलिंग में अपने अभूतपूर्व कार्य से एक बार फिर एआई समुदाय का ध्यान आकर्षित किया है (PRMs). इस अभिनव दृष्टिकोण का उद्देश्य एआई मॉडल के मध्यवर्ती चरणों और तर्क का मूल्यांकन करना है, जिससे प्रदर्शन और मेट्रिक्स में सुधार होता है।
मानव प्रतिक्रिया से पारंपरिक सुदृढीकरण सीखने में (आरएलएचएफ), मॉडल फीडबैक आम तौर पर मॉडल द्वारा उत्पन्न समग्र परिणाम के आधार पर दिया जाता है। तथापि, OpenAIका नया शोध मॉडल द्वारा उठाए गए व्यक्तिगत कदमों और तर्क प्रक्रियाओं के मूल्यांकन के विचार की पड़ताल करता है। ऐसा करने से, वे अधिक सुक्ष्म मूल्यांकन और फीडबैक प्रदान कर सकते हैं।
इस समस्या से निपटने के लिए, OpenAI चयनित गणितीय समस्याएँ जिनके लिए एकाधिक क्रियाओं की आवश्यकता होती है। एक विभक्त आदर्श प्राथमिक मॉडल द्वारा किए गए किसी भी गलत निर्णय की पहचान करने के लिए एक आलोचक के रूप में कार्य करते हुए मध्यवर्ती चरणों का प्रभावी ढंग से मूल्यांकन करने के लिए प्रशिक्षित किया गया था। यह प्रक्रिया न केवल समग्र प्रदर्शन को बढ़ाती है बल्कि मॉडल की क्षमताओं का आकलन करने के लिए उपयोग की जाने वाली मेट्रिक्स में भी सुधार करती है।
OpenAI सावधानीपूर्वक क्यूरेटेड डेटासेट जारी करने के साथ, इस क्षेत्र में महत्वपूर्ण प्रगति हुई है 800,000 चिह्नित निर्णय. प्रत्येक निर्णय गणितीय समस्याओं को हल करने में एक अलग चरण का प्रतिनिधित्व करता है और मैन्युअल रूप से बनाया गया था। यह समर्पण और संसाधनों के स्तर पर प्रकाश डालता है OpenAI उच्च गुणवत्ता वाले डेटासेट विकसित करने में निवेश करता है, प्रोग्रामिंग या ओपन-एंडेड प्रश्नों जैसे अन्य डोमेन के लिए एकत्र किए गए डेटा की मात्रा के बारे में प्रश्न उठाना।
का प्रशिक्षण GPT-4, OpenAIकी नवीनतम पुनरावृत्ति GPT श्रृंखला, पहले से ही अच्छी तरह से चल रही है। जबकि आरएलएचएफ घटक को वर्तमान प्रयोगों में शामिल नहीं किया गया है, एक शुद्ध भाषा मॉडल का उपयोग किया जाता है। उल्लेखनीय रूप से, OpenAI उल्लेख है कि इसके कई संस्करण हैं GPT-4, यहां तक कि सबसे छोटे संस्करण के लिए भी प्रशिक्षण के लिए काफी कम संसाधनों की आवश्यकता होती है—लगभग 200 गुना कम।
द्वारा साझा किया गया एक दिलचस्प उदाहरण OpenAI दिखाता है कि मॉडल कैसे मूल्यांकन करता है प्रत्येक व्यक्तिगत निर्णय चरण. पोस्ट में शामिल एक स्क्रीनशॉट में, समाधान में त्रुटियों को चिह्नित किया गया है और सबसे कम शुद्धता स्कोर दिया गया है, जिसे लाल रंग में हाइलाइट किया गया है। यह प्रदर्शन मॉडल की तर्क करने की क्षमता को उजागर करता है और इसकी निर्णय लेने की प्रक्रिया में मूल्यवान अंतर्दृष्टि प्रदान करता है। OpenAI मार्कअप के लिए निर्देश भी प्रदान किए गए हैं, जो क्राउडसोर्सर्स को योगदान देने और उनके काम से लाभ उठाने के अवसर प्रदान करते हैं।
As OpenAI एआई अनुसंधान की सीमाओं को आगे बढ़ाना जारी है, मॉडल तर्क और प्रक्रिया-पर्यवेक्षित इनाम मॉडलिंग पर उनका ध्यान उन्नत एआई क्षमताओं के लिए नई संभावनाएं लाता है। यह नवीनतम सफलता मॉडल के प्रदर्शन को बेहतर बनाने की उनकी प्रतिबद्धता को दर्शाती है और क्षेत्र में आगे की प्रगति के द्वार खोलती है।
- हाल ही में, कथित तौर पर Apple ने कर्मचारियों के उपयोग को प्रतिबंधित कर दिया है ChatGPT और गोपनीयता संबंधी चिंताओं के कारण अन्य AI-संचालित चैटबॉट। वॉल स्ट्रीट जर्नल ने बताया कि श्रमिकों को GitHub के AI टूल Copilot का उपयोग करने से भी प्रतिबंधित किया गया है उपयोगकर्ताओं को स्वचालित रूप से सॉफ़्टवेयर कोड लिखने में सक्षम बनाता है. ChatGPT द्वारा विकसित एक AI-संचालित चैटबॉट है OpenAI, जिसकी निजता के उल्लंघन के लिए आलोचना की गई है।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।