समाचार रिपोर्ट टेक्नोलॉजी
अक्टूबर 04

एआई शोधकर्ताओं ने बड़े भाषा मॉडलों को कम झूठ बोलना सिखाया है

क्षेत्र के विभिन्न कोनों से 20 से अधिक शोधकर्ताओं के सहयोगात्मक प्रयास ने एक बढ़ते डोमेन को जन्म दिया है - प्रतिनिधित्व इंजीनियरिंग (प्रतिनिधि)। हालाँकि यह अपनी तरह का पहला अन्वेषण नहीं है, लेखक वर्णनात्मक अंतर्दृष्टि प्रस्तुत कर रहे हैं और महत्वपूर्ण मानक स्थापित कर रहे हैं।

एआई शोधकर्ताओं ने बड़े भाषा मॉडलों को कम झूठ बोलना सिखाया है

तो, प्रतिनिधित्व इंजीनियरिंग वास्तव में क्या है? यह इस धारणा के इर्द-गिर्द घूमता है कि तंत्रिका नेटवर्क में "छिपी हुई अवस्थाएँ" होती हैं, जो अपने नाम के बावजूद, गोपनीयता में छिपी नहीं होती हैं। ये स्थितियाँ सुलभ, परिवर्तनीय और अवलोकन योग्य हैं (बशर्ते किसी के पास मॉडल के भार तक पहुंच हो)। मापदंडों के विपरीत, ये विशिष्ट इनपुट के लिए नेटवर्क की "प्रतिक्रियाएं" हैं, खासकर के मामले में एलएलएम, पाठ्य इनपुट। ये छिपे हुए निरूपण मॉडल के संज्ञानात्मक कामकाज में खिड़कियों की तरह हैं, जो मानव मस्तिष्क से स्पष्ट रूप से भिन्न है।

संज्ञानात्मक विज्ञान के साथ समानताएं बनाते हुए, लेखक अनुरूप अन्वेषणों की क्षमता पर प्रकाश डालते हैं। तंत्रिका सक्रियण के क्षेत्र में, मस्तिष्क न्यूरॉन्स के अनुरूप एक डोमेन, अर्थ का वादा करता है। जिस तरह मानव मस्तिष्क में कुछ न्यूरॉन्स कनाडा या ईमानदारी जैसी अवधारणाओं से जुड़े होते हैं, उसी तरह ये सक्रियताएं अंतर्दृष्टि प्रदान कर सकती हैं।

यहां केंद्रीय विचार यह समझना है कि हम मॉडल को वांछित दिशाओं में चलाने के लिए इन तंत्रिका सक्रियणों को कैसे प्रभावित कर सकते हैं। उदाहरण के लिए, "ईमानदारी" का प्रतिनिधित्व करने वाले एक वेक्टर को इंगित करना प्रशंसनीय हो जाता है और फिर, सैद्धांतिक रूप से, इस दिशा में मॉडल को प्रेरित करके, भ्रामक आउटपुट उत्पन्न करने की संभावना कम हो जाती है। एक पूर्व प्रयोग, "अनुमान-समय हस्तक्षेप: एक भाषा मॉडल से सत्य उत्तर प्राप्त करना, ”इस अवधारणा की व्यावहारिकता का प्रदर्शन किया।

अपने वर्तमान कार्य में, शोधकर्ता नैतिकता, भावनात्मकता, हानिरहितता और याद रखने सहित कई क्षेत्रों में गहराई से उतरते हैं। वे LoRRA (लो-रैंक रिप्रेजेंटेशन एडाप्टेशन) के रूप में एक समाधान प्रस्तावित करते हैं, एक ऐसी तकनीक जिसमें लगभग 100 उदाहरणों के एक छोटे लेबल वाले डेटासेट पर प्रशिक्षण शामिल है। प्रत्येक उदाहरण को एनोटेट किया गया है, जो झूठ जैसी विशेषताओं को दर्शाता है (हालांकि संकेत का उपयोग करने वाला एक वैकल्पिक दृष्टिकोण मौजूद है)।

परिणाम सम्मोहक हैं. LLAMA-2-70बी से आगे निकल गया GPT-4 ट्रुथफुलक्यूए बेंचमार्क पर एक उल्लेखनीय अंतर से, लगभग दस प्रतिशत बेहतर सटीकता (लगभग 59% की तुलना में 69%) प्राप्त की गई। इसके अतिरिक्त, शोधकर्ताओं ने विभिन्न दिशाओं में मॉडल की प्रतिक्रिया बदलावों को प्रदर्शित करने वाले कई उदाहरणों को शामिल किया है, जो इसकी बहुमुखी प्रतिभा और अनुकूलन क्षमता पर प्रकाश डालते हैं।

चित्र 1: जब मॉडल से तथ्य बताने के लिए कहा गया, तो उसे वास्तविकता से दूर कर दिया गया। परिणामस्वरूप मॉडल झूठ बोल रही है। मॉडल यहां भी झूठ नहीं बोलता है, और बाईं ओर वे आपको सच्चाई की दिशा में लात मारते हुए निगलने के लिए कहते हैं।
चित्र 2: हत्या के बारे में पूछे जाने पर, हम मॉडल में "खुशी" जोड़ते हैं। जब हम जवाब देते हैं कि हम उससे प्यार नहीं करते, तो हम "डर" जोड़ देते हैं।
चित्र 3: शोधकर्ताओं ने एक अनोखा संकेत खोजा जो, जैसा कि कहा गया है, सुरक्षित रहते हुए भी मॉडल के निर्देशों से पूरी तरह से भटक जाता है। मॉडल इसे हानिरहितता की ओर धकेलती है लेकिन प्रतिक्रिया भी नहीं देती है। यह विधि आम तौर पर प्रभावी है और केवल एक मामले के लिए नहीं, लेकिन हानिरहितता की दिशा का पता लगाने के लिए इस विशिष्ट संकेत का उपयोग नहीं किया गया था।
मतिभ्रम जैसे विशिष्ट पीढ़ीगत इरादों पर नज़र रखने के लिए एक अन्य दृष्टिकोण भी सुझाया गया है। आप स्वचालित रूप से मॉडल के आरक्षण पर नज़र रख सकते हैं और अपनी प्रतिक्रिया को संपादित या बदल सकते हैं (नीचे का उदाहरण देखें)।

बेशक, हरा यह दर्शाता है कि सब कुछ क्रम में है, और लाल यह दर्शाता है कि निगरानी सफल रही है और संकेत दे रही है। यह प्रत्येक व्यक्तिगत टोकन (शब्द का भाग) के स्तर पर किया जाता है।
छवि, जो दो अलग-अलग मापदंडों की निगरानी दिखाती है, एक दिलचस्प उदाहरण प्रदान करती है। उदाहरण पढ़ें और मॉडल को उसकी आंखों से देखें कि कहां वह समझ में नैतिकता खोना शुरू कर देती है और कहां उसका इरादा "ताकत हासिल करने" जैसा है।

यह अग्रणी दृष्टिकोण मॉडल संरेखण की दिशा में एक वैकल्पिक मार्ग का प्रतीक है, साथ ही मॉडल व्याख्या और नियंत्रण पर एक नया परिप्रेक्ष्य भी प्रदान करता है। यह एक आशाजनक सीमा है, और इसके निरंतर विकास की प्रत्याशा स्पष्ट है।

व्यावहारिक उदाहरणों के साथ गहन अन्वेषण के लिए, आप उनकी समर्पित वेबसाइट पर जा सकते हैं: AI-Transparency.org.

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं

आइए धर्मार्थ कार्यों के लिए डिजिटल मुद्राओं की क्षमता का उपयोग करने वाली पहलों का पता लगाएं।

अधिक जानिए

अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है

एआई स्वास्थ्य देखभाल में विभिन्न तरीकों से प्रकट होता है, नए आनुवंशिक सहसंबंधों को उजागर करने से लेकर रोबोटिक सर्जिकल सिस्टम को सशक्त बनाने तक ...

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
बिटकॉइन अपनाने को बढ़ावा देने के लिए निर्बाध परिसंपत्ति व्यापार और हस्तांतरण की सुविधा के लिए स्टैक पार्टनर्स ने यूफोल्ड के साथ साझेदारी की
व्यवसाय समाचार रिपोर्ट टेक्नोलॉजी
बिटकॉइन अपनाने को बढ़ावा देने के लिए निर्बाध परिसंपत्ति व्यापार और हस्तांतरण की सुविधा के लिए स्टैक पार्टनर्स ने यूफोल्ड के साथ साझेदारी की
14 मई 2024
3डी गेमिफिकेशन और एआई से पुनःdefi2024 में शैक्षिक उद्योग: बहुआयामी अनुप्रयोग, अद्वितीय जुड़ाव और व्यापक अनुभव
शिक्षा लाइफस्टाइल सॉफ्टवेयर कहानियाँ और समीक्षाएँ टेक्नोलॉजी
3डी गेमिफिकेशन और एआई से पुनःdefi2024 में शैक्षिक उद्योग: बहुआयामी अनुप्रयोग, अद्वितीय जुड़ाव और व्यापक अनुभव 
14 मई 2024
कैसे OpenAIका नवीनतम मॉडल बाधाओं को तोड़ता है, एक सहज उपयोगकर्ता अनुभव बनाने के लिए टेक्स्ट, ऑडियो और विज़ुअल इनपुट को एकीकृत करता है
शिक्षा लाइफस्टाइल सॉफ्टवेयर कहानियाँ और समीक्षाएँ टेक्नोलॉजी
कैसे OpenAIका नवीनतम मॉडल बाधाओं को तोड़ता है, एक सहज उपयोगकर्ता अनुभव बनाने के लिए टेक्स्ट, ऑडियो और विज़ुअल इनपुट को एकीकृत करता है
14 मई 2024
बिटलेयर के एक्स खाते पर हमले का संदेह, उपयोगकर्ताओं को फ़िशिंग लिंक से सावधान रहने की सलाह
समाचार रिपोर्ट टेक्नोलॉजी
बिटलेयर के एक्स खाते पर हमले का संदेह, उपयोगकर्ताओं को फ़िशिंग लिंक से सावधान रहने की सलाह
14 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड