AI4Bharat lansează „Airavata”, un LLM personalizat pentru a îmbunătăți limba hindi în modelele AI
Pe scurt
AI4Bharat din India a anunțat lansarea „Airavata”, un LLM pentru a îmbunătăți suportul pentru limba hindi în modelele AI, construit prin reglarea fină a OpenHathi.
Laboratorul de cercetare AI al institutului indian de învățământ superior IIT Madras AI4Bharat a lansat Airavata, un model reglat cu instrucțiuni pentru hindi. Potrivit anunțului, modelul a fost construit prin reglarea fină a OpenHathi de la Sarvam AI, cu diverse seturi de date hindi pentru a-l face mai potrivit pentru sarcini de asistență.
Hindi este cea mai vorbită limbă din India, cu peste 43% vorbitori nativi.
„În prezent, Airavata acceptă hindi, dar intenționăm să extindem acest lucru la toate cele 22 de limbi indice programate în curând”, a spus laboratorul AI într-un Postare pe LinkedIn. Este important de reținut că performanța de modele lingvistice mari (LLM) se bazează pe seturi de date de reglare a instrucțiunilor de înaltă calitate. Cu toate acestea, există un deficit de seturi de date diverse disponibile pentru hindi.
De asemenea, s-au înregistrat progrese majore în dezvoltarea seturilor de date pentru pre-instruire, cum ar fi RedPjama; reglarea instrucțiunilor precum Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; și repere de evaluare precum AlpacaEval, MT-Bench. Cu toate acestea, majoritatea acestor progrese s-au concentrat în principal pe limba engleză.
„Există un suport limitat pentru limbile indiene, care poate fi atribuit includerii accidentale a unor date din limba indiană care au trecut prin filtrele de date în timpul pregătirii preliminare a acestor modele lingvistice. Cu toate acestea, reprezentarea datelor, eficacitatea tokenizatoarelor și performanța sarcinilor pentru limbile indiene sunt considerabil în urma celei din engleză”, AI4Bharat Labs. a spus în declarația sa.
„Performanța în limbile indiene, chiar și pe modele cu sursă închisă, cum ar fi ChatGPT, GPT-4 și altele, este inferior în comparație cu engleza”, a adăugat acesta.
AI4Bharat lansează seturi de date de reglare a instrucțiunilor
Echipa AI4Bharat a lansat, de asemenea, instrucțiunile de reglare seturi de date utilizat pentru model pentru a permite cercetări ulterioare pentru IndicLLMs.
„Airavata” se bazează pe seturi de date gestionate de oameni care sunt prietenoase cu acordurile de licență pentru a dezvolta modele reglate pe instrucțiuni. Echipa evită în mod special utilizarea datelor generate de modele proprietare, cum ar fi GPT-4 deoarece ar crește costurile și ar limita utilizarea gratuită a acestor modele în alte aplicații din cauza restricțiilor de licențiere.
În schimb, echipa crede că seturile de date gestionate de oameni sunt o abordare mai durabilă pentru construirea de modele pentru majoritatea limbilor indice.
Cu toate acestea, Airavata, ca și alte LLM, se confruntă cu provocări tipice. Acestea includ o posibilitate de halucinație, care duce la informații fabricate și pot avea probleme cu acuratețea în subiecte complexe sau specializate. Există, de asemenea, riscul de a produce conținut inacceptabil sau părtinitor.
Echipa a clarificat că modelul este în scopuri de cercetare și nu este recomandat pentru niciun caz de utilizare în producție.
Anterior, laboratorul AI4Bharat a lansat o platformă de transcreare video open-source – Chitralekha – care include un sistem de management al forței de muncă care facilitează procesul complet de transcreare a unui videoclip dintr-o limbă în alta, acoperind transcrierea, traducerea și vocea off pentru limba tradusă.
A fost creat în colaborare cu EkStep – o fundație non-profit și echipa care a jucat un rol esențial în dezvoltarea proiectului Aadhaar din India.
În plus, AI4Bharat a inițiat procesul de recrutare pentru programul său de rezidenți și asociați AI pentru mandatul 2024-25. Acest program predoctoral de un an pune accent pe munca intensivă în prelucrarea limbajului natural (NLP), proiecte de vorbire și viziune.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Kumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.
Mai multe articoleKumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.