समाचार रिपोर्ट टेक्नोलॉजी
जनवरी ७,२०२१

एआई4भारत ने एआई मॉडल में हिंदी भाषा को बेहतर बनाने के लिए एक कस्टम एलएलएम 'ऐरावत' जारी किया

संक्षेप में

भारत के AI4भारत ने ओपनहाथी को फाइन-ट्यूनिंग द्वारा निर्मित AI मॉडल में हिंदी भाषा समर्थन को बेहतर बनाने के लिए एक एलएलएम "ऐरावत" जारी करने की घोषणा की।

AI4भारत ने बेहतर हिंदी भाषा समर्थन के लिए एक कस्टम एलएलएम 'ऐरावत' जारी किया

भारतीय उच्च शिक्षा संस्थान आईआईटी मद्रास की एआई अनुसंधान प्रयोगशाला AI4भारत हिंदी के लिए एक अनुदेश-अनुकूलित मॉडल ऐरावत जारी किया गया। घोषणा के अनुसार, मॉडल को विविध हिंदी डेटासेट के साथ सर्वम एआई के ओपनहाथी को फाइन-ट्यून करके बनाया गया है ताकि इसे सहायक कार्यों के लिए बेहतर अनुकूल बनाया जा सके।

43% से अधिक देशी वक्ताओं के साथ हिंदी भारत में सबसे अधिक बोली जाने वाली भाषा है।

एआई लैब ने एक बयान में कहा, "वर्तमान में, ऐरावत हिंदी का समर्थन करता है, लेकिन हम जल्द ही इसे सभी 22 अनुसूचित इंडिक भाषाओं में विस्तारित करने की योजना बना रहे हैं।" लिंक्डइन पोस्ट. यह ध्यान रखना महत्वपूर्ण है कि का प्रदर्शन बड़े भाषा मॉडल (एलएलएम) उच्च गुणवत्ता वाले निर्देश ट्यूनिंग डेटासेट पर निर्भर करता है। हालाँकि, हिंदी के लिए उपलब्ध विविध डेटासेट की कमी है।

रेडपाजामा जैसे पूर्व-प्रशिक्षण के लिए डेटासेट विकसित करने में भी बड़ी प्रगति हुई है; अल्पाका, अल्ट्राचैट, डॉली, ओपनअसिस्टेंट, एलएमएसवाईएस-चैट जैसी निर्देश ट्यूनिंग; और अल्पाकाएवल, एमटी-बेंच जैसे मूल्यांकन बेंचमार्क। हालाँकि, इनमें से अधिकांश प्रगति मुख्य रूप से अंग्रेजी भाषा पर केंद्रित है।

“भारतीय भाषाओं के लिए कुछ सीमित समर्थन है, जिसका श्रेय कुछ भारतीय भाषा डेटा के आकस्मिक समावेशन को दिया जा सकता है जो इन भाषा मॉडलों के पूर्व-प्रशिक्षण के दौरान डेटा फ़िल्टर के माध्यम से फिसल गया था। हालाँकि, डेटा का प्रतिनिधित्व, टोकननाइज़र की प्रभावकारिता और भारतीय भाषाओं के लिए कार्य प्रदर्शन अंग्रेजी से काफी पीछे हैं, ”एआई4भारत लैब्स अपने बयान में कहा.

“भारतीय भाषाओं में प्रदर्शन, यहां तक ​​कि बंद-स्रोत मॉडल पर भी ChatGPT, GPT-4 और अन्य, अंग्रेजी की तुलना में निम्नतर है,” यह जोड़ा गया।

AI4भारत ने निर्देश ट्यूनिंग डेटासेट जारी किया

AI4भारत टीम ने निर्देश-ट्यूनिंग भी जारी की डेटासेट IndicLLMs के लिए आगे के शोध को सक्षम करने के लिए मॉडल के लिए उपयोग किया जाता है।

"ऐरावत" मानव-क्यूरेटेड डेटासेट पर निर्भर करता है जो निर्देश-ट्यून मॉडल विकसित करने के लिए लाइसेंसिंग समझौतों के अनुकूल है। टीम विशेष रूप से मालिकाना मॉडल से उत्पन्न डेटा का उपयोग करने से बचती है GPT-4 क्योंकि इससे लागत बढ़ेगी और लाइसेंसिंग प्रतिबंधों के कारण अन्य अनुप्रयोगों में इन मॉडलों का मुफ्त उपयोग सीमित हो जाएगा।

इसके बजाय, टीम का मानना ​​है कि अधिकांश इंडिक भाषाओं के लिए मॉडल बनाने के लिए मानव-क्यूरेटेड डेटासेट एक अधिक टिकाऊ दृष्टिकोण है।

हालाँकि, अन्य एलएलएम की तरह, ऐरावत को भी विशिष्ट चुनौतियों का सामना करना पड़ता है। इनमें मतिभ्रम की संभावना शामिल है, जिससे मनगढ़ंत जानकारी प्राप्त होती है और जटिल या विशेष विषयों में सटीकता के साथ संघर्ष करना पड़ सकता है। आपत्तिजनक या पक्षपातपूर्ण सामग्री उत्पन्न होने का भी जोखिम है।

टीम ने स्पष्ट किया कि मॉडल अनुसंधान उद्देश्यों के लिए है और किसी भी उत्पादन उपयोग के मामले के लिए अनुशंसित नहीं है।

इससे पहले, AI4भारत लैब ने एक ओपन-सोर्स वीडियो ट्रांसक्रिएशन प्लेटफॉर्म - चित्रलेखा लॉन्च किया था - जिसमें एक कार्यबल प्रबंधन प्रणाली शामिल है जो एक भाषा से दूसरी भाषा में वीडियो की पूरी ट्रांसक्रिएशन प्रक्रिया को सुविधाजनक बनाती है, जिसमें अनुवादित भाषा के लिए ट्रांसक्रिप्शन, अनुवाद और वॉयस-ओवर शामिल है।

इसे एकस्टेप - एक गैर-लाभकारी फाउंडेशन और उस टीम के सहयोग से बनाया गया था जिसने भारत की आधार परियोजना को विकसित करने में महत्वपूर्ण भूमिका निभाई थी।

इसके अतिरिक्त, AI4भारत ने 2024-25 अवधि के लिए अपने AI रेजिडेंट और एसोसिएट प्रोग्राम के लिए भर्ती प्रक्रिया शुरू की है। साल भर चलने वाला यह प्री-डॉक्टोरल कार्यक्रम गहन कार्य पर जोर देता है प्राकृतिक भाषा प्रसंस्करण (एनएलपी), भाषण और दृष्टि परियोजनाएं।

Disclaimer

साथ लाइन में ट्रस्ट परियोजना दिशानिर्देश, कृपया ध्यान दें कि इस पृष्ठ पर दी गई जानकारी का कानूनी, कर, निवेश, वित्तीय या किसी अन्य प्रकार की सलाह के रूप में व्याख्या करने का इरादा नहीं है और न ही इसकी व्याख्या की जानी चाहिए। यह महत्वपूर्ण है कि केवल उतना ही निवेश करें जितना आप खो सकते हैं और यदि आपको कोई संदेह हो तो स्वतंत्र वित्तीय सलाह लें। अधिक जानकारी के लिए, हम नियम और शर्तों के साथ-साथ जारीकर्ता या विज्ञापनदाता द्वारा प्रदान किए गए सहायता और समर्थन पृष्ठों का संदर्भ लेने का सुझाव देते हैं। MetaversePost सटीक, निष्पक्ष रिपोर्टिंग के लिए प्रतिबद्ध है, लेकिन बाज़ार की स्थितियाँ बिना सूचना के परिवर्तन के अधीन हैं।

के बारे में लेखक

कुमार एआई/एमएल, मार्केटिंग टेक्नोलॉजी और क्रिप्टो, ब्लॉकचेन जैसे उभरते क्षेत्रों के गतिशील चौराहों में विशेषज्ञता के साथ एक अनुभवी टेक पत्रकार हैं। NFTएस। उद्योग में 3 वर्षों से अधिक के अनुभव के साथ, कुमार ने सम्मोहक कथाएँ तैयार करने, व्यावहारिक साक्षात्कार आयोजित करने और व्यापक अंतर्दृष्टि प्रदान करने में एक सिद्ध ट्रैक रिकॉर्ड स्थापित किया है। कुमार की विशेषज्ञता प्रमुख उद्योग प्लेटफार्मों के लिए लेख, रिपोर्ट और शोध प्रकाशन सहित उच्च प्रभाव वाली सामग्री तैयार करने में निहित है। तकनीकी ज्ञान और कहानी कहने के संयोजन वाले एक अद्वितीय कौशल सेट के साथ, कुमार जटिल तकनीकी अवधारणाओं को स्पष्ट और आकर्षक तरीके से विविध दर्शकों तक संप्रेषित करने में उत्कृष्टता प्राप्त करते हैं।

और अधिक लेख
कुमार गंधर्व
कुमार गंधर्व

कुमार एआई/एमएल, मार्केटिंग टेक्नोलॉजी और क्रिप्टो, ब्लॉकचेन जैसे उभरते क्षेत्रों के गतिशील चौराहों में विशेषज्ञता के साथ एक अनुभवी टेक पत्रकार हैं। NFTएस। उद्योग में 3 वर्षों से अधिक के अनुभव के साथ, कुमार ने सम्मोहक कथाएँ तैयार करने, व्यावहारिक साक्षात्कार आयोजित करने और व्यापक अंतर्दृष्टि प्रदान करने में एक सिद्ध ट्रैक रिकॉर्ड स्थापित किया है। कुमार की विशेषज्ञता प्रमुख उद्योग प्लेटफार्मों के लिए लेख, रिपोर्ट और शोध प्रकाशन सहित उच्च प्रभाव वाली सामग्री तैयार करने में निहित है। तकनीकी ज्ञान और कहानी कहने के संयोजन वाले एक अद्वितीय कौशल सेट के साथ, कुमार जटिल तकनीकी अवधारणाओं को स्पष्ट और आकर्षक तरीके से विविध दर्शकों तक संप्रेषित करने में उत्कृष्टता प्राप्त करते हैं।

Hot Stories
हमारे समाचार पत्र शामिल हों।
नवीनतम समाचार

रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं

आइए धर्मार्थ कार्यों के लिए डिजिटल मुद्राओं की क्षमता का उपयोग करने वाली पहलों का पता लगाएं।

अधिक जानिए

अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है

एआई स्वास्थ्य देखभाल में विभिन्न तरीकों से प्रकट होता है, नए आनुवंशिक सहसंबंधों को उजागर करने से लेकर रोबोटिक सर्जिकल सिस्टम को सशक्त बनाने तक ...

अधिक जानिए
हमारे इनोवेटिव टेक समुदाय से जुड़ें
विस्तार में पढ़ें
अधिक पढ़ें
वर्ल्डकॉइन के WLD टोकन को आने वाले महीनों में अधिक अनलॉक के साथ आक्रामक बिक्री दबाव का सामना करना पड़ेगा, चेतावनी दी गई है DeFi2 बायबिट ट्रेडर
Markets समाचार रिपोर्ट टेक्नोलॉजी
वर्ल्डकॉइन के WLD टोकन को आने वाले महीनों में अधिक अनलॉक के साथ आक्रामक बिक्री दबाव का सामना करना पड़ेगा, चेतावनी दी गई है DeFi2 बायबिट ट्रेडर
14 मई 2024
क्रिप्टो एक्सचेंज कॉइनबेस ने सिस्टम विफलता का अनुभव किया, उपयोगकर्ताओं के फंड सिक्योर विले कंपनी मामले की जांच कर रही है
Markets समाचार रिपोर्ट टेक्नोलॉजी
क्रिप्टो एक्सचेंज कॉइनबेस ने सिस्टम विफलता का अनुभव किया, उपयोगकर्ताओं के फंड सिक्योर विले कंपनी मामले की जांच कर रही है
14 मई 2024
रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं
विश्लेषण क्रिप्टो Wiki व्यवसाय शिक्षा लाइफस्टाइल Markets सॉफ्टवेयर टेक्नोलॉजी
रिपल से द बिग ग्रीन डीएओ तक: कैसे क्रिप्टोकरेंसी प्रोजेक्ट चैरिटी में योगदान करते हैं
13 मई 2024
अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है
AI Wiki विश्लेषण संग्रह राय व्यवसाय Markets समाचार रिपोर्ट सॉफ्टवेयर कहानियाँ और समीक्षाएँ टेक्नोलॉजी
अल्फाफोल्ड 3, मेड-जेमिनी, और अन्य: जिस तरह से एआई 2024 में हेल्थकेयर को बदल देता है
13 मई 2024
क्रिप्टोमेरिया लैब्स पीटीई। लिमिटेड