समाचार रिपोर्ट टेक्नोलॉजी
अक्टूबर 27

शोधकर्ताओं ने दोहराया OpenAIका कार्य आरएलएचएफ में समीपस्थ नीति अनुकूलन (पीपीओ) पर आधारित है

ह्यूमन फीडबैक से सुदृढीकरण सीखना (आरएलएचएफ) प्रशिक्षण प्रणालियों का एक अभिन्न अंग है ChatGPT, और यह सफलता प्राप्त करने के लिए विशेष तरीकों पर निर्भर करता है। इन तरीकों में से एक, प्रॉक्सिमल पॉलिसी ऑप्टिमाइज़ेशन (पीपीओ), प्रारंभ में था कल्पना की दीवारों के भीतर OpenAI 2017 में। पहली नज़र में, पीपीओ कार्यान्वयन में सरलता के अपने वादे और मॉडल को बेहतर बनाने के लिए आवश्यक हाइपरपैरामीटर की अपेक्षाकृत कम संख्या के लिए खड़ा था। हालाँकि, जैसा कि वे कहते हैं, शैतान विवरण में है।

शोधकर्ताओं ने दोहराया OpenAIका कार्य आरएलएचएफ में समीपस्थ नीति अनुकूलन (पीपीओ) पर आधारित है

हाल ही में, एक ब्लॉग पोस्ट जिसका शीर्षक था "समीपस्थ नीति अनुकूलन के 37 कार्यान्वयन विवरणपीपीओ (आईसीएलआर सम्मेलन के लिए तैयार) की जटिलताओं पर प्रकाश डालें। केवल नाम ही इस कथित सरल पद्धति को लागू करने में आने वाली चुनौतियों का संकेत देता है। आश्चर्यजनक रूप से, सभी आवश्यक जानकारी इकट्ठा करने और परिणामों को पुन: प्रस्तुत करने में लेखकों को तीन साल लग गए।

में कोड OpenAI संस्करणों के बीच रिपॉजिटरी में महत्वपूर्ण परिवर्तन हुए, कुछ पहलुओं को अस्पष्ट छोड़ दिया गया, और बग के रूप में प्रकट होने वाली विशिष्टताओं ने किसी तरह परिणाम उत्पन्न किए। जब आप विवरणों में गहराई से जाते हैं तो पीपीओ की जटिलता स्पष्ट हो जाती है, और गहरी समझ या आत्म-सुधार में रुचि रखने वालों के लिए, एक अत्यधिक अनुशंसित वीडियो सारांश उपलब्ध है।

लेकिन कहानी यहीं ख़त्म नहीं होती. उन्हीं लेखकों ने इसे फिर से देखने का निर्णय लिया openai/एलएम-मानव-वरीयताएँ भंडार 2019 से, जिसने पीपीओ का उपयोग करके मानवीय प्राथमिकताओं के आधार पर भाषा मॉडल को ठीक करने में महत्वपूर्ण भूमिका निभाई। इस भंडार ने शुरुआती विकास को चिह्नित किया ChatGPT. हालिया ब्लॉग पोस्ट, "पीपीओ के साथ आरएलएचएफ का एन कार्यान्वयन विवरण, “ बारीकी से दोहराता है OpenAIका काम लेकिन पुराने TensorFlow के बजाय PyTorch और आधुनिक लाइब्रेरी का उपयोग करता है। यह परिवर्तन चुनौतियों के अपने सेट के साथ आया, जैसे फ्रेमवर्क के बीच एडम ऑप्टिमाइज़र के कार्यान्वयन में अंतर, जिससे समायोजन के बिना प्रशिक्षण को दोहराना असंभव हो गया।

शायद इस यात्रा का सबसे दिलचस्प पहलू मूल मेट्रिक्स और सीखने के चरण प्राप्त करने के लिए विशिष्ट जीपीयू सेटअप पर प्रयोग चलाने की खोज है। यह विभिन्न GPU प्रकारों पर मेमोरी बाधाओं से लेकर माइग्रेशन तक की चुनौतियों से भरी यात्रा है OpenAI भंडारण सुविधाओं के बीच डेटासेट।

निष्कर्ष में, मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने में समीपस्थ नीति अनुकूलन (पीपीओ) की खोज से जटिलताओं की एक आकर्षक दुनिया का पता चलता है।

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

और अधिक लेख
दामिर यालालोव
दामिर यालालोव

दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना ​​है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है। 

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

अस्थिरता के बीच बिटकॉइन ईटीएफ के प्रति संस्थागत रुचि बढ़ी

13एफ फाइलिंग के माध्यम से प्रकटीकरण से पता चलता है कि उल्लेखनीय संस्थागत निवेशक बिटकॉइन ईटीएफ में रुचि ले रहे हैं, जो इसकी बढ़ती स्वीकार्यता को रेखांकित करता है...

अधिक जानिए

सजा का दिन आ गया: सीजेड का भाग्य अधर में लटक गया क्योंकि अमेरिकी अदालत ने डीओजे की याचिका पर विचार किया

चांगपेंग झाओ आज सिएटल की एक अमेरिकी अदालत में सजा का सामना करने के लिए तैयार हैं।

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
डोनाल्ड ट्रम्प का क्रिप्टो में बदलाव: प्रतिद्वंद्वी से वकील तक, और अमेरिकी क्रिप्टोकरेंसी बाजार के लिए इसका क्या मतलब है
व्यवसाय Markets कहानियाँ और समीक्षाएँ टेक्नोलॉजी
डोनाल्ड ट्रम्प का क्रिप्टो में बदलाव: प्रतिद्वंद्वी से वकील तक, और अमेरिकी क्रिप्टोकरेंसी बाजार के लिए इसका क्या मतलब है
10 मई 2024
लेयर3 इस गर्मी में एल3 टोकन लॉन्च करेगा, कुल आपूर्ति का 51% समुदाय को आवंटित करेगा
Markets समाचार रिपोर्ट टेक्नोलॉजी
लेयर3 इस गर्मी में एल3 टोकन लॉन्च करेगा, कुल आपूर्ति का 51% समुदाय को आवंटित करेगा
10 मई 2024
एडवर्ड स्नोडेन की बिटकॉइन डेवलपर्स को अंतिम चेतावनी: "गोपनीयता को प्रोटोकॉल-स्तर की प्राथमिकता बनाएं या इसे खोने का जोखिम उठाएं"
Markets सुरक्षा Wiki सॉफ्टवेयर कहानियाँ और समीक्षाएँ टेक्नोलॉजी
एडवर्ड स्नोडेन की बिटकॉइन डेवलपर्स को अंतिम चेतावनी: "गोपनीयता को प्रोटोकॉल-स्तर की प्राथमिकता बनाएं या इसे खोने का जोखिम उठाएं"
10 मई 2024
आशावाद-संचालित एथेरियम लेयर 2 नेटवर्क मिंट 15 मई को अपना मेननेट लॉन्च करेगा
समाचार रिपोर्ट टेक्नोलॉजी
आशावाद-संचालित एथेरियम लेयर 2 नेटवर्क मिंट 15 मई को अपना मेननेट लॉन्च करेगा
10 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड