जनवरी ७,२०२१

एआई4भारत ने एआई मॉडल में हिंदी भाषा को बेहतर बनाने के लिए एक कस्टम एलएलएम 'ऐरावत' जारी किया

प्रकाशित: जनवरी 25, 2024 प्रातः 5:32 बजे अद्यतन: जनवरी 25, 2024 प्रातः 5:32 बजे

संपादित और तथ्य-जांचा गया: 25 जनवरी, 2024 सुबह 5:32 बजे

संक्षेप में

भारत के AI4भारत ने ओपनहाथी को फाइन-ट्यूनिंग द्वारा निर्मित AI मॉडल में हिंदी भाषा समर्थन को बेहतर बनाने के लिए एक एलएलएम "ऐरावत" जारी करने की घोषणा की।

AI4भारत ने बेहतर हिंदी भाषा समर्थन के लिए एक कस्टम एलएलएम 'ऐरावत' जारी किया

भारतीय उच्च शिक्षा संस्थान आईआईटी मद्रास की एआई अनुसंधान प्रयोगशाला AI4भारत हिंदी के लिए एक अनुदेश-अनुकूलित मॉडल ऐरावत जारी किया गया। घोषणा के अनुसार, मॉडल को विविध हिंदी डेटासेट के साथ सर्वम एआई के ओपनहाथी को फाइन-ट्यून करके बनाया गया है ताकि इसे सहायक कार्यों के लिए बेहतर अनुकूल बनाया जा सके।

43% से अधिक देशी वक्ताओं के साथ हिंदी भारत में सबसे अधिक बोली जाने वाली भाषा है।

एआई लैब ने एक बयान में कहा, "वर्तमान में, ऐरावत हिंदी का समर्थन करता है, लेकिन हम जल्द ही इसे सभी 22 अनुसूचित इंडिक भाषाओं में विस्तारित करने की योजना बना रहे हैं।" लिंक्डइन पोस्ट. यह ध्यान रखना महत्वपूर्ण है कि का प्रदर्शन बड़े भाषा मॉडल (एलएलएम) उच्च गुणवत्ता वाले निर्देश ट्यूनिंग डेटासेट पर निर्भर करता है। हालाँकि, हिंदी के लिए उपलब्ध विविध डेटासेट की कमी है।

रेडपाजामा जैसे पूर्व-प्रशिक्षण के लिए डेटासेट विकसित करने में भी बड़ी प्रगति हुई है; अल्पाका, अल्ट्राचैट, डॉली, ओपनअसिस्टेंट, एलएमएसवाईएस-चैट जैसी निर्देश ट्यूनिंग; और अल्पाकाएवल, एमटी-बेंच जैसे मूल्यांकन बेंचमार्क। हालाँकि, इनमें से अधिकांश प्रगति मुख्य रूप से अंग्रेजी भाषा पर केंद्रित है।

“भारतीय भाषाओं के लिए कुछ सीमित समर्थन है, जिसका श्रेय कुछ भारतीय भाषा डेटा के आकस्मिक समावेशन को दिया जा सकता है जो इन भाषा मॉडलों के पूर्व-प्रशिक्षण के दौरान डेटा फ़िल्टर के माध्यम से फिसल गया था। हालाँकि, डेटा का प्रतिनिधित्व, टोकननाइज़र की प्रभावकारिता और भारतीय भाषाओं के लिए कार्य प्रदर्शन अंग्रेजी से काफी पीछे हैं, ”एआई4भारत लैब्स अपने बयान में कहा.

“भारतीय भाषाओं में प्रदर्शन, यहां तक कि बंद-स्रोत मॉडल पर भी ChatGPT, GPT-4 और अन्य, अंग्रेजी की तुलना में निम्नतर है,” यह जोड़ा गया।

AI4भारत ने निर्देश ट्यूनिंग डेटासेट जारी किया

AI4भारत टीम ने निर्देश-ट्यूनिंग भी जारी की डेटासेट IndicLLMs के लिए आगे के शोध को सक्षम करने के लिए मॉडल के लिए उपयोग किया जाता है।

"ऐरावत" मानव-क्यूरेटेड डेटासेट पर निर्भर करता है जो निर्देश-ट्यून मॉडल विकसित करने के लिए लाइसेंसिंग समझौतों के अनुकूल है। टीम विशेष रूप से मालिकाना मॉडल से उत्पन्न डेटा का उपयोग करने से बचती है GPT-4 क्योंकि इससे लागत बढ़ेगी और लाइसेंसिंग प्रतिबंधों के कारण अन्य अनुप्रयोगों में इन मॉडलों का मुफ्त उपयोग सीमित हो जाएगा।

इसके बजाय, टीम का मानना है कि अधिकांश इंडिक भाषाओं के लिए मॉडल बनाने के लिए मानव-क्यूरेटेड डेटासेट एक अधिक टिकाऊ दृष्टिकोण है।

हालाँकि, अन्य एलएलएम की तरह, ऐरावत को भी विशिष्ट चुनौतियों का सामना करना पड़ता है। इनमें मतिभ्रम की संभावना शामिल है, जिससे मनगढ़ंत जानकारी प्राप्त होती है और जटिल या विशेष विषयों में सटीकता के साथ संघर्ष करना पड़ सकता है। आपत्तिजनक या पक्षपातपूर्ण सामग्री उत्पन्न होने का भी जोखिम है।

टीम ने स्पष्ट किया कि मॉडल अनुसंधान उद्देश्यों के लिए है और किसी भी उत्पादन उपयोग के मामले के लिए अनुशंसित नहीं है।

इससे पहले, AI4भारत लैब ने एक ओपन-सोर्स वीडियो ट्रांसक्रिएशन प्लेटफॉर्म - चित्रलेखा लॉन्च किया था - जिसमें एक कार्यबल प्रबंधन प्रणाली शामिल है जो एक भाषा से दूसरी भाषा में वीडियो की पूरी ट्रांसक्रिएशन प्रक्रिया को सुविधाजनक बनाती है, जिसमें अनुवादित भाषा के लिए ट्रांसक्रिप्शन, अनुवाद और वॉयस-ओवर शामिल है।

इसे एकस्टेप - एक गैर-लाभकारी फाउंडेशन और उस टीम के सहयोग से बनाया गया था जिसने भारत की आधार परियोजना को विकसित करने में महत्वपूर्ण भूमिका निभाई थी।

इसके अतिरिक्त, AI4भारत ने 2024-25 अवधि के लिए अपने AI रेजिडेंट और एसोसिएट प्रोग्राम के लिए भर्ती प्रक्रिया शुरू की है। साल भर चलने वाला यह प्री-डॉक्टोरल कार्यक्रम गहन कार्य पर जोर देता है प्राकृतिक भाषा प्रसंस्करण (एनएलपी), भाषण और दृष्टि परियोजनाएं।

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

कुमार एआई/एमएल, मार्केटिंग टेक्नोलॉजी और क्रिप्टो, ब्लॉकचेन जैसे उभरते क्षेत्रों के गतिशील चौराहों में विशेषज्ञता के साथ एक अनुभवी टेक पत्रकार हैं। NFTएस। उद्योग में 3 वर्षों से अधिक के अनुभव के साथ, कुमार ने सम्मोहक कथाएँ तैयार करने, व्यावहारिक साक्षात्कार आयोजित करने और व्यापक अंतर्दृष्टि प्रदान करने में एक सिद्ध ट्रैक रिकॉर्ड स्थापित किया है। कुमार की विशेषज्ञता प्रमुख उद्योग प्लेटफार्मों के लिए लेख, रिपोर्ट और शोध प्रकाशन सहित उच्च प्रभाव वाली सामग्री तैयार करने में निहित है। तकनीकी ज्ञान और कहानी कहने के संयोजन वाले एक अद्वितीय कौशल सेट के साथ, कुमार जटिल तकनीकी अवधारणाओं को स्पष्ट और आकर्षक तरीके से विविध दर्शकों तक संप्रेषित करने में उत्कृष्टता प्राप्त करते हैं।

और अधिक लेख

कुमार गंधर्व