AI4Bharat vydává „Airavata“, vlastní LLM pro zlepšení hindštiny v modelech AI


Stručně
Indická společnost AI4Bharat oznámila vydání „Airavata“, LLM pro zlepšení podpory hindštiny v modelech umělé inteligence, vytvořené vyladěním OpenHathi.

Laboratoř pro výzkum umělé inteligence indického vysokoškolského institutu IIT Madras AI4Bharat vydala Airavata, instrukčně laděný model pro hindštinu. Podle oznámení byl model vytvořen doladěním OpenHathi Sarvam AI s různými hindskými datovými sadami, aby se lépe hodil pro pomocné úkoly.
Hindština je nejpoužívanějším jazykem v Indii s více než 43 % rodilých mluvčích.
„Airavata v současné době podporuje hindštinu, ale plánujeme ji brzy rozšířit na všech 22 naplánovaných indických jazyků,“ uvedla laboratoř AI v LinkedIn příspěvek. Je důležité poznamenat, že výkon velké jazykové modely (LLM) se spoléhá na vysoce kvalitní datové sady pro ladění instrukcí. Existuje však nedostatek různých datových sad dostupných pro hindštinu.
Velkého pokroku bylo také dosaženo ve vývoji datových sad pro předškolní přípravu, jako je RedPajama; ladění instrukcí jako Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; a hodnotící benchmarky jako AlpacaEval, MT-Bench. Většina těchto pokroků se však soustředila převážně na anglický jazyk.
„Existuje určitá omezená podpora indických jazyků, což lze přičíst náhodnému zahrnutí některých dat o indickém jazyce, která proklouzla datovými filtry během předběžného školení těchto jazykových modelů. Zastoupení dat, účinnost tokenizérů a výkon úkolů pro indické jazyky však výrazně zaostávají za angličtinou,“ AI4Bharat Labs uvedl ve svém prohlášení.
„Výkon v indických jazycích, a to i na uzavřených modelech, jako je např ChatGPT, GPT-4 a další, je ve srovnání s angličtinou horší,“ dodal.
AI4Bharat vydává datové sady ladění instrukcí
Tým AI4Bharat také vydal ladění instrukcí datových sad použitý pro model, aby umožnil další výzkum pro IndicLLM.
„Airavata“ se spoléhá na lidmi spravované datové soubory, které jsou přátelské k licenčním dohodám, aby vyvíjely modely laděné podle pokynů. Tým se konkrétně vyhýbá používání dat generovaných z proprietárních modelů, jako je např GPT-4 protože by to zvýšilo náklady a omezilo bezplatné používání těchto modelů v jiných aplikacích kvůli licenčním omezením.
Místo toho se tým domnívá, že datové sady spravované lidmi jsou udržitelnějším přístupem k vytváření modelů pro většinu indických jazyků.
Airavata, stejně jako ostatní LLM, však naráží na typické problémy. Patří mezi ně možnost halucinací, které vedou k vymyšleným informacím a mohou mít problémy s přesností ve složitých nebo specializovaných tématech. Existuje také riziko, že se vytvoří nevhodný nebo neobjektivní obsah.
Tým objasnil, že model je určen pro výzkumné účely a nedoporučuje se pro žádné případy použití ve výrobě.
Laboratoř AI4Bharat již dříve spustila platformu pro transkreaci videa s otevřeným zdrojovým kódem – Chitralekha – která zahrnuje systém řízení pracovní síly usnadňující kompletní proces převodu videa z jednoho jazyka do druhého, zahrnující přepis, překlad a voice-over pro přeložený jazyk.
Byl vytvořen ve spolupráci s EkStep – neziskovou nadací a týmem, který se podílel na rozvoji indického projektu Aadhaar.
Společnost AI4Bharat navíc zahájila náborový proces pro svůj rezidentní a přidružený program AI na období 2024-25. Tento celoroční predoktorský program klade důraz na intenzivní práci v zpracování přirozeného jazyka (NLP), řeči a projekty vize.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Kumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.
Další články

Kumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.