AI4Bharat пуска „Airavata“, персонализиран LLM за подобряване на езика на хинди в AI модели
Накратко
Индийският AI4Bharat обяви пускането на “Airavata”, LLM за подобряване на поддръжката на хинди език в AI модели, създаден чрез фина настройка на OpenHathi.
Изследователската лаборатория за AI на индийския институт за висше образование IIT Madras AI4Bharat пусна Airavata, модел с инструкции за хинди. Според съобщението, моделът е изграден чрез фина настройка на OpenHathi на Sarvam AI, с различни набори от данни на хинди, за да бъде по-подходящ за помощни задачи.
Хинди е най-говореният език в Индия с над 43% роден език.
„В момента Airavata поддържа хинди, но планираме скоро да разширим това до всичките 22 планирани индийски езика“, каза лабораторията за изкуствен интелект в Публикация в LinkedIn. Важно е да се отбележи, че изпълнението на големи езикови модели (LLMs) разчита на набори от данни за настройка на висококачествени инструкции. Има обаче недостиг на различни набори от данни за хинди.
Голям напредък беше постигнат и в разработването на набори от данни за предварително обучение като RedPajama; настройка на инструкции като Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; и показатели за оценка като AlpacaEval, MT-Bench. Повечето от тези постижения обаче са съсредоточени предимно върху английския език.
„Има известна ограничена поддръжка за индийски езици, което може да се дължи на случайното включване на някои данни за индийски език, които са преминали през филтрите за данни по време на предварителното обучение на тези езикови модели. Въпреки това, представянето на данни, ефикасността на токенизаторите и изпълнението на задачите за индийските езици са значително по-назад от тези на английския“, AI4Bharat Labs се казва в изявлението му.
„Представянето на индийски езици, дори на модели със затворен код, като напр ChatGPT, GPT-4 и други, е по-нисък в сравнение с английския“, добавя той.
AI4Bharat пуска набори от данни за настройка на инструкции
Екипът на AI4Bharat също пусна инструкцията за настройка масиви от данни използвани за модела, за да позволят по-нататъшни изследвания за IndicLLM.
„Airavata“ разчита на набори от данни, курирани от хора, които са приятелски настроени към лицензионните споразумения, за да разработи модели, настроени с инструкции. Екипът специално избягва използването на данни, генерирани от патентовани модели като GPT-4 защото би увеличило разходите и би ограничило безплатното използване на тези модели в други приложения поради лицензионни ограничения.
Вместо това екипът вярва, че подбраните от хора набори от данни са по-устойчив подход за изграждане на модели за повечето индийски езици.
Въпреки това Airavata, подобно на други LLM, се сблъсква с типични предизвикателства. Те включват възможност за халюцинации, водещи до изфабрикувана информация и може да се затруднят с точността при сложни или специализирани теми. Съществува и риск от създаване на нежелателно или пристрастно съдържание.
Екипът изясни, че моделът е за изследователски цели и не се препоръчва за никакви производствени случаи.
Преди това лабораторията AI4Bharat пусна платформа за видео транскреация с отворен код – Chitralekha – която включва система за управление на работната сила, улесняваща пълния процес на транскреация на видео от един език на друг, обхващаща транскрипция, превод и глас зад кадър за преведения език.
Създаден е в сътрудничество с EkStep – фондация с нестопанска цел и екипа, който допринесе за разработването на индийския проект Aadhaar.
Освен това AI4Bharat инициира процеса на набиране на персонал за своята AI резидентна и асоциирана програма за мандата 2024-25. Тази едногодишна преддокторска програма набляга на интензивна работа в обработка на естествен език (НЛП), проекти за реч и визия.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Кумар е опитен технически журналист със специализация в динамичните пресечни точки на AI/ML, маркетингови технологии и нововъзникващи области като крипто, блокчейн и NFTс. С над 3 години опит в индустрията, Kumar има доказан опит в изработването на завладяващи разкази, провеждането на проницателни интервюта и предоставянето на изчерпателни прозрения. Експертният опит на Kumar се състои в създаването на силно въздействащо съдържание, включително статии, доклади и изследователски публикации за известни индустриални платформи. С уникален набор от умения, който съчетава технически познания и разказване на истории, Кумар се справя отлично в предаването на сложни технологични концепции на различни аудитории по ясен и увлекателен начин.
Още статииКумар е опитен технически журналист със специализация в динамичните пресечни точки на AI/ML, маркетингови технологии и нововъзникващи области като крипто, блокчейн и NFTс. С над 3 години опит в индустрията, Kumar има доказан опит в изработването на завладяващи разкази, провеждането на проницателни интервюта и предоставянето на изчерпателни прозрения. Експертният опит на Kumar се състои в създаването на силно въздействащо съдържание, включително статии, доклади и изследователски публикации за известни индустриални платформи. С уникален набор от умения, който съчетава технически познания и разказване на истории, Кумар се справя отлично в предаването на сложни технологични концепции на различни аудитории по ясен и увлекателен начин.