एआई4भारत ने एआई मॉडल में हिंदी भाषा को बेहतर बनाने के लिए एक कस्टम एलएलएम 'ऐरावत' जारी किया
संक्षेप में
भारत के AI4भारत ने ओपनहाथी को फाइन-ट्यूनिंग द्वारा निर्मित AI मॉडल में हिंदी भाषा समर्थन को बेहतर बनाने के लिए एक एलएलएम "ऐरावत" जारी करने की घोषणा की।
भारतीय उच्च शिक्षा संस्थान आईआईटी मद्रास की एआई अनुसंधान प्रयोगशाला AI4भारत हिंदी के लिए एक अनुदेश-अनुकूलित मॉडल ऐरावत जारी किया गया। घोषणा के अनुसार, मॉडल को विविध हिंदी डेटासेट के साथ सर्वम एआई के ओपनहाथी को फाइन-ट्यून करके बनाया गया है ताकि इसे सहायक कार्यों के लिए बेहतर अनुकूल बनाया जा सके।
43% से अधिक देशी वक्ताओं के साथ हिंदी भारत में सबसे अधिक बोली जाने वाली भाषा है।
एआई लैब ने एक बयान में कहा, "वर्तमान में, ऐरावत हिंदी का समर्थन करता है, लेकिन हम जल्द ही इसे सभी 22 अनुसूचित इंडिक भाषाओं में विस्तारित करने की योजना बना रहे हैं।" लिंक्डइन पोस्ट. यह ध्यान रखना महत्वपूर्ण है कि का प्रदर्शन बड़े भाषा मॉडल (एलएलएम) उच्च गुणवत्ता वाले निर्देश ट्यूनिंग डेटासेट पर निर्भर करता है। हालाँकि, हिंदी के लिए उपलब्ध विविध डेटासेट की कमी है।
रेडपाजामा जैसे पूर्व-प्रशिक्षण के लिए डेटासेट विकसित करने में भी बड़ी प्रगति हुई है; अल्पाका, अल्ट्राचैट, डॉली, ओपनअसिस्टेंट, एलएमएसवाईएस-चैट जैसी निर्देश ट्यूनिंग; और अल्पाकाएवल, एमटी-बेंच जैसे मूल्यांकन बेंचमार्क। हालाँकि, इनमें से अधिकांश प्रगति मुख्य रूप से अंग्रेजी भाषा पर केंद्रित है।
“भारतीय भाषाओं के लिए कुछ सीमित समर्थन है, जिसका श्रेय कुछ भारतीय भाषा डेटा के आकस्मिक समावेशन को दिया जा सकता है जो इन भाषा मॉडलों के पूर्व-प्रशिक्षण के दौरान डेटा फ़िल्टर के माध्यम से फिसल गया था। हालाँकि, डेटा का प्रतिनिधित्व, टोकननाइज़र की प्रभावकारिता और भारतीय भाषाओं के लिए कार्य प्रदर्शन अंग्रेजी से काफी पीछे हैं, ”एआई4भारत लैब्स अपने बयान में कहा.
“भारतीय भाषाओं में प्रदर्शन, यहां तक कि बंद-स्रोत मॉडल पर भी ChatGPT, GPT-4 और अन्य, अंग्रेजी की तुलना में निम्नतर है,” यह जोड़ा गया।
AI4भारत ने निर्देश ट्यूनिंग डेटासेट जारी किया
AI4भारत टीम ने निर्देश-ट्यूनिंग भी जारी की डेटासेट IndicLLMs के लिए आगे के शोध को सक्षम करने के लिए मॉडल के लिए उपयोग किया जाता है।
"ऐरावत" मानव-क्यूरेटेड डेटासेट पर निर्भर करता है जो निर्देश-ट्यून मॉडल विकसित करने के लिए लाइसेंसिंग समझौतों के अनुकूल है। टीम विशेष रूप से मालिकाना मॉडल से उत्पन्न डेटा का उपयोग करने से बचती है GPT-4 क्योंकि इससे लागत बढ़ेगी और लाइसेंसिंग प्रतिबंधों के कारण अन्य अनुप्रयोगों में इन मॉडलों का मुफ्त उपयोग सीमित हो जाएगा।
इसके बजाय, टीम का मानना है कि अधिकांश इंडिक भाषाओं के लिए मॉडल बनाने के लिए मानव-क्यूरेटेड डेटासेट एक अधिक टिकाऊ दृष्टिकोण है।
हालाँकि, अन्य एलएलएम की तरह, ऐरावत को भी विशिष्ट चुनौतियों का सामना करना पड़ता है। इनमें मतिभ्रम की संभावना शामिल है, जिससे मनगढ़ंत जानकारी प्राप्त होती है और जटिल या विशेष विषयों में सटीकता के साथ संघर्ष करना पड़ सकता है। आपत्तिजनक या पक्षपातपूर्ण सामग्री उत्पन्न होने का भी जोखिम है।
टीम ने स्पष्ट किया कि मॉडल अनुसंधान उद्देश्यों के लिए है और किसी भी उत्पादन उपयोग के मामले के लिए अनुशंसित नहीं है।
इससे पहले, AI4भारत लैब ने एक ओपन-सोर्स वीडियो ट्रांसक्रिएशन प्लेटफॉर्म - चित्रलेखा लॉन्च किया था - जिसमें एक कार्यबल प्रबंधन प्रणाली शामिल है जो एक भाषा से दूसरी भाषा में वीडियो की पूरी ट्रांसक्रिएशन प्रक्रिया को सुविधाजनक बनाती है, जिसमें अनुवादित भाषा के लिए ट्रांसक्रिप्शन, अनुवाद और वॉयस-ओवर शामिल है।
इसे एकस्टेप - एक गैर-लाभकारी फाउंडेशन और उस टीम के सहयोग से बनाया गया था जिसने भारत की आधार परियोजना को विकसित करने में महत्वपूर्ण भूमिका निभाई थी।
इसके अतिरिक्त, AI4भारत ने 2024-25 अवधि के लिए अपने AI रेजिडेंट और एसोसिएट प्रोग्राम के लिए भर्ती प्रक्रिया शुरू की है। साल भर चलने वाला यह प्री-डॉक्टोरल कार्यक्रम गहन कार्य पर जोर देता है प्राकृतिक भाषा प्रसंस्करण (एनएलपी), भाषण और दृष्टि परियोजनाएं।
Disclaimer
साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।
के बारे में लेखक
कुमार एआई/एमएल, मार्केटिंग टेक्नोलॉजी और क्रिप्टो, ब्लॉकचेन जैसे उभरते क्षेत्रों के गतिशील चौराहों में विशेषज्ञता के साथ एक अनुभवी टेक पत्रकार हैं। NFTएस। उद्योग में 3 वर्षों से अधिक के अनुभव के साथ, कुमार ने सम्मोहक कथाएँ तैयार करने, व्यावहारिक साक्षात्कार आयोजित करने और व्यापक अंतर्दृष्टि प्रदान करने में एक सिद्ध ट्रैक रिकॉर्ड स्थापित किया है। कुमार की विशेषज्ञता प्रमुख उद्योग प्लेटफार्मों के लिए लेख, रिपोर्ट और शोध प्रकाशन सहित उच्च प्रभाव वाली सामग्री तैयार करने में निहित है। तकनीकी ज्ञान और कहानी कहने के संयोजन वाले एक अद्वितीय कौशल सेट के साथ, कुमार जटिल तकनीकी अवधारणाओं को स्पष्ट और आकर्षक तरीके से विविध दर्शकों तक संप्रेषित करने में उत्कृष्टता प्राप्त करते हैं।
और अधिक लेखकुमार एआई/एमएल, मार्केटिंग टेक्नोलॉजी और क्रिप्टो, ब्लॉकचेन जैसे उभरते क्षेत्रों के गतिशील चौराहों में विशेषज्ञता के साथ एक अनुभवी टेक पत्रकार हैं। NFTएस। उद्योग में 3 वर्षों से अधिक के अनुभव के साथ, कुमार ने सम्मोहक कथाएँ तैयार करने, व्यावहारिक साक्षात्कार आयोजित करने और व्यापक अंतर्दृष्टि प्रदान करने में एक सिद्ध ट्रैक रिकॉर्ड स्थापित किया है। कुमार की विशेषज्ञता प्रमुख उद्योग प्लेटफार्मों के लिए लेख, रिपोर्ट और शोध प्रकाशन सहित उच्च प्रभाव वाली सामग्री तैयार करने में निहित है। तकनीकी ज्ञान और कहानी कहने के संयोजन वाले एक अद्वितीय कौशल सेट के साथ, कुमार जटिल तकनीकी अवधारणाओं को स्पष्ट और आकर्षक तरीके से विविध दर्शकों तक संप्रेषित करने में उत्कृष्टता प्राप्त करते हैं।