AI4Bharat objavljuje 'Airavata', prilagođeni LLM za poboljšanje hindskog jezika u AI modelima
Ukratko
Indijski AI4Bharat najavio je izdanje “Airavata”, LLM-a za poboljšanje podrške za hindski jezik u AI modelima, izgrađenog finim podešavanjem OpenHathija.
Istraživački laboratorij AI indijskog instituta za visoko obrazovanje IIT Madras AI4Bharat izdao Airavatu, model prilagođen uputama za hindski. Prema najavi, model je izgrađen finim podešavanjem Sarvam AI OpenHathija, s različitim hindskim skupovima podataka kako bi bio prikladniji za pomoćne zadatke.
Hindski je jezik koji se najviše govori u Indiji s preko 43% izvornih govornika.
"Trenutno Airavata podržava hindski, ali planiramo to uskoro proširiti na sva 22 indijska jezika", rekao je AI laboratorij u Post na LinkedIn-u. Važno je napomenuti da izvedba od veliki jezični modeli (LLMs) oslanja se na skupove podataka za ugađanje instrukcija visoke kvalitete. Međutim, postoji nestašica različitih skupova podataka dostupnih za hindski.
Također je postignut veliki napredak u razvoju skupova podataka za prethodnu obuku kao što je RedPajama; podešavanje instrukcija kao što su Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; i mjerila za ocjenjivanje kao što su AlpacaEval, MT-Bench. Međutim, većina tih napretka pretežno je bila usmjerena na engleski jezik.
„Postoji određena ograničena podrška za indijske jezike, što se može pripisati slučajnom uključivanju nekih podataka o indijskom jeziku koji su proklizali kroz filtere podataka tijekom predobuke ovih jezičnih modela. Međutim, reprezentacija podataka, učinkovitost tokenizatora i izvedba zadataka za indijske jezike znatno su zaostali za engleskim,” AI4Bharat Labs stoji u svojoj izjavi.
“Izvedba na indijskim jezicima, čak i na modelima zatvorenog koda kao što je ChatGPT, GPT-4 i drugi, inferioran je u usporedbi s engleskim", dodaje se.
AI4Bharat objavljuje skupove podataka za podešavanje uputa
Tim AI4Bharat također je objavio instrukcije za podešavanje skupovi podataka koristi se za model kako bi se omogućilo daljnje istraživanje za IndicLLM.
"Airavata" se oslanja na skupove podataka koje su pripremili ljudi koji su prijateljski nastrojeni prema ugovorima o licenciranju za razvoj modela prilagođenih uputama. Tim posebno izbjegava korištenje podataka generiranih iz vlasničkih modela kao što su GPT-4 jer bi to povećalo troškove i ograničilo besplatnu upotrebu ovih modela u drugim aplikacijama zbog ograničenja licenciranja.
Umjesto toga, tim vjeruje da su skupovi podataka koje biraju ljudi održiviji pristup za izgradnju modela za većinu indijskih jezika.
Međutim, Airavata, kao i drugi LLM, nailazi na tipične izazove. To uključuje mogućnost halucinacija, što dovodi do izmišljenih informacija i može biti problematično s točnošću u složenim ili specijaliziranim temama. Također postoji rizik od stvaranja nepoželjnog ili pristranog sadržaja.
Tim je pojasnio da je model u istraživačke svrhe i da se ne preporučuje za bilo kakve slučajeve proizvodne upotrebe.
Prethodno je laboratorij AI4Bharat pokrenuo platformu otvorenog koda za video transkreaciju – Chitralekha – koja uključuje sustav upravljanja radnom snagom koji olakšava kompletan proces transkreacije video zapisa s jednog jezika na drugi, uključujući transkripciju, prijevod i glasovni prijenos za prevedeni jezik.
Nastao je u suradnji s EkStep – neprofitnom zakladom i timom koji je bio ključan u razvoju indijskog projekta Aadhaar.
Osim toga, AI4Bharat je pokrenuo proces zapošljavanja za svoj rezidentni i suradnički program za AI za razdoblje 2024.-25. Ovaj cjelogodišnji preddoktorski program naglašava intenzivan rad u obrada prirodnog jezika (NLP), projekti govora i vizije.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Kumar je iskusan tehnološki novinar sa specijalizacijom u dinamičkim raskrižjima AI/ML-a, marketinške tehnologije i novih područja kao što su kripto, blockchain i NFTs. S više od 3 godine iskustva u industriji, Kumar ima dokazanu reputaciju u izradi uvjerljivih priča, provođenju pronicljivih intervjua i pružanju sveobuhvatnih uvida. Kumarova stručnost leži u izradi sadržaja visokog utjecaja, uključujući članke, izvješća i istraživačke publikacije za istaknute industrijske platforme. S jedinstvenim skupom vještina koje kombiniraju tehničko znanje i pripovijedanje, Kumar se ističe u komuniciranju složenih tehnoloških koncepata različitoj publici na jasan i privlačan način.
Više članakaKumar je iskusan tehnološki novinar sa specijalizacijom u dinamičkim raskrižjima AI/ML-a, marketinške tehnologije i novih područja kao što su kripto, blockchain i NFTs. S više od 3 godine iskustva u industriji, Kumar ima dokazanu reputaciju u izradi uvjerljivih priča, provođenju pronicljivih intervjua i pružanju sveobuhvatnih uvida. Kumarova stručnost leži u izradi sadržaja visokog utjecaja, uključujući članke, izvješća i istraživačke publikacije za istaknute industrijske platforme. S jedinstvenim skupom vještina koje kombiniraju tehničko znanje i pripovijedanje, Kumar se ističe u komuniciranju složenih tehnoloških koncepata različitoj publici na jasan i privlačan način.