एफएलएम-101बी: एक सुपर-लागत-प्रभावी 101बी-स्केल भाषा मॉडल अग्रणी एआई मॉडल के साथ प्रतिस्पर्धा करता है
संक्षेप में
चीनी एलएलएम, एलएम-101बी को 100 डॉलर के बजट पर प्रशिक्षित किया जा सकता है, जो प्रसिद्ध मॉडलों के बराबर प्रदर्शन प्राप्त करता है। GPT-3 और जीएलएम-130बी.
चीनी शोधकर्ताओं ने एक नए एलएलएम का अनावरण किया है एफएलएम-101बी, एक डिकोडर-केवल एलएलएम जो उल्लेखनीय 101 बिलियन मापदंडों का दावा करता है। यह विकास अनुसंधान और व्यावहारिक अनुप्रयोगों दोनों के लिए एक लागत प्रभावी विकल्प प्रदान करता है।
एफएलएम-101बी को जो चीज सबसे अलग बनाती है, वह है अपेक्षाकृत मामूली बजट में हासिल किया गया इसका असाधारण प्रदर्शन। हालांकि यह सर्वविदित है कि एलएलएम को शुरू से प्रशिक्षित करने के लिए भारी निवेश की आवश्यकता हो सकती है, एफएलएम-101बी के रचनाकारों ने दिखाया है कि केवल $101 के बजट का उपयोग करके 100 बिलियन मापदंडों के साथ एक मॉडल को प्रशिक्षित करना संभव है।
प्रयोगात्मक परिणाम प्रभावशाली से कम नहीं हैं। एफएलएम-101बी ने स्थापित और संसाधन-गहन के तुलनीय प्रदर्शन स्तरों का प्रदर्शन किया है जैसे मॉडल GPT-3 और जीएलएम-130बी. यह तुलना इस लागत प्रभावी मॉडल की जबरदस्त क्षमता पर प्रकाश डालती है, विशेष रूप से आईक्यू बेंचमार्क पर जटिल संदर्भों के साथ जो प्रशिक्षण डेटा में मौजूद नहीं हैं।
एआई अनुसंधान और विकास को आगे बढ़ाने की उनकी प्रतिबद्धता को रेखांकित करने वाले एक कदम में, एफएलएम-101बी के रचनाकारों ने इस मॉडल को ओपन-सोर्स बना दिया है। दुनिया भर के शोधकर्ता और डेवलपर्स अब चीनी और अंग्रेजी दोनों भाषाओं में फैले विभिन्न अनुप्रयोगों के लिए इस 101बी-स्केल एलएलएम तक पहुंच सकते हैं और इसका लाभ उठा सकते हैं।
FLM-101B मॉडल एक अद्वितीय प्रशिक्षण दृष्टिकोण को नियोजित करता है। यह प्रशिक्षण के शुरुआती चरणों में छोटे 16-बिलियन-पैरामीटर मॉडल से तेजी से ज्ञान जमा करता है और धीरे-धीरे 101 बिलियन पैरामीटर तक पहुंच जाता है। यह वृद्धिशील दृष्टिकोण प्रशिक्षण लागत को काफी कम कर देता है, जिससे यह परियोजनाओं की व्यापक श्रेणी के लिए वित्तीय रूप से व्यवहार्य हो जाता है।
एफएलएम-101बी की एक असाधारण विशेषता अनुमान के दौरान कुशल विंडो आकार विस्तार के लिए इसका समर्थन है। यह xPos रोटरी पोजीशन एम्बेडिंग के उपयोग के माध्यम से प्राप्त किया जाता है, जिससे मॉडल को व्यापक संदर्भ को संभालने की अनुमति मिलती है, जिससे इसकी अनुकूलनशीलता और उपयोगिता बढ़ जाती है।
FLM-101B को 24 दिनों से भी कम समय में 800 DGX-A26 GPU सर्वर के क्लस्टर पर प्रशिक्षित किया गया था। यह प्रभावशाली उपलब्धि मॉडल की मापनीयता और कुशल संसाधन उपयोग को रेखांकित करती है। मेगेट्रॉन-एलएम से अनुकूलित मॉडल का प्रशिक्षण कोडबेस जल्द ही ओपन-सोर्स के रूप में उपलब्ध होगा, जो एआई समुदाय के लिए मूल्यवान अंतर्दृष्टि प्रदान करेगा।
एफएलएम-101बी के निर्माता संभावित सीमाओं को स्वीकार करते हैं, जिसमें डेटासेट की खुली प्रकृति के कारण प्रशिक्षण कोष में असुरक्षित उदाहरणों के प्रति मॉडल का जोखिम भी शामिल है। यह चेतावनी जिम्मेदार एआई उपयोग के महत्व की याद दिलाती है सामग्री मॉडरेशन.
जबकि एफएलएम-101बी ने उल्लेखनीय परिणाम हासिल किए हैं, निर्माता सुधार के क्षेत्रों को स्वीकार करते हैं। मॉडल की अनुमान प्रक्रिया शक्तिशाली होते हुए भी अभी तक पूरी तरह से अनुकूलित नहीं हुई है, जिससे संसाधन का उपयोग अधिक होता है और गति कम हो जाती है। हालाँकि, इस सीमा को संबोधित करते हुए, फ्लैश अटेंशन को लागू करने की योजना पर काम चल रहा है।
एआई के बारे में और पढ़ें:
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
दामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।
और अधिक लेखदामिर टीम लीडर, उत्पाद प्रबंधक और संपादक हैं Metaverse Postएआई/एमएल, एजीआई, एलएलएम, मेटावर्स और जैसे विषयों को कवर करता है Web3-संबंधित क्षेत्रों। उनके लेख हर महीने दस लाख से अधिक उपयोगकर्ताओं को आकर्षित करते हैं। ऐसा प्रतीत होता है कि वह SEO और डिजिटल मार्केटिंग में 10 वर्षों के अनुभव वाला एक विशेषज्ञ है। दामिर का उल्लेख मैशबल, वायर्ड, में किया गया है Cointelegraph, द न्यू यॉर्कर, Inside.com, एंटरप्रेन्योर, BeInCrypto, और अन्य प्रकाशन। वह एक डिजिटल खानाबदोश के रूप में संयुक्त अरब अमीरात, तुर्की, रूस और सीआईएस के बीच यात्रा करता है। दामिर ने भौतिकी में स्नातक की डिग्री हासिल की, उनका मानना है कि इससे उन्हें इंटरनेट के लगातार बदलते परिदृश्य में सफल होने के लिए आवश्यक महत्वपूर्ण सोच कौशल प्राप्त हुआ है।