Новински извештај технологија
Januar 25, 2024

АИ4Бхарат издаје 'Аиравата', прилагођени ЛЛМ за побољшање хинди језика у АИ моделима

Укратко

Индијски АИ4Бхарат најавио је издавање „Аиравата“, ЛЛМ за побољшање подршке за хинди језик у АИ моделима, изграђеног финим подешавањем ОпенХатхи-ја.

АИ4Бхарат издаје 'Аирават', прилагођени ЛЛМ за побољшану подршку за хинди језик

Истраживачка лабораторија АИ Индијског института за високо образовање ИИТ Мадрас АИ4Бхарат објавио Аиравата, модел прилагођен упутствима за хинди. Према најави, модел је направљен финим подешавањем ОпенХатхи-а компаније Сарвам АИ, са различитим хинди скуповима података како би био погоднији за помоћне задатке.

Хинди је језик који се највише говори у Индији са преко 43% изворних говорника.

„Тренутно Аиравата подржава хинди, али планирамо да то ускоро проширимо на сва 22 заказана индијска језика“, саопштила је лабораторија АИ у ЛинкедИн пост. Важно је напоменути да перформансе велики језички модели (ЛЛМ) се ослања на висококвалитетне скупове података за подешавање инструкција. Међутим, постоји недостатак различитих скупова података доступних за хинди.

Велики напредак је такође постигнут у развоју скупова података за пре-тренинг као што је РедПајама; подешавање инструкција као што су Алпаца, УлтраЦхат, Долли, ОпенАссистант, ЛМСИС-Цхат; и мерила за евалуацију као што су АлпацаЕвал, МТ-Бенцх. Међутим, већина ових напретка била је претежно усредсређена на енглески језик.

„Постоји ограничена подршка за индијске језике, што се може приписати случајном укључивању неких података о индијском језику који су проклизали кроз филтере података током пре-тренинга ових језичких модела. Међутим, представљање података, ефикасност токенизатора и перформансе задатака за индијске језике знатно заостају за енглеским“, АИ4Бхарат Лабс наводи се у својој изјави.

„Перформансе на индијским језицима, чак и на моделима са затвореним кодом, као што су ChatGPT, GPT-4 и други, инфериоран је у поређењу са енглеским“, додаје се.

АИ4Бхарат издаје скупове података за подешавање инструкција

АИ4Бхарат тим је такође објавио подешавање инструкција скупови података користи се за модел како би се омогућило даље истраживање за ИндицЛЛМ.

„Аиравата“ се ослања на скупове података које су курирали људи и који су пријатељски настројени према уговорима о лиценцирању за развој модела прилагођених упутствима. Тим посебно избегава коришћење података генерисаних из власничких модела као што су GPT-4 јер би то повећало трошкове и ограничило бесплатно коришћење ових модела у другим апликацијама због ограничења лиценцирања.

Уместо тога, тим верује да су скупови података које су курирали људи одрживији приступ за изградњу модела за већину индијских језика.

Међутим, Аиравата, као и други ЛЛМ, наилази на типичне изазове. То укључује могућност халуцинације, што доводи до измишљених информација и може имати проблема са прецизношћу у сложеним или специјализованим темама. Такође постоји ризик од стварања непожељног или пристрасног садржаја.

Тим је појаснио да је модел у истраживачке сврхе и да се не препоручује за било који производни случај.

Претходно је лабораторија АИ4Бхарат покренула платформу за видео транскреацију отвореног кода – Цхитралекха – која укључује систем управљања радном снагом који олакшава комплетан процес транскреације видеа са једног језика на други, покривајући транскрипцију, превођење и гласовно снимање за преведени језик.

Настао је у сарадњи са ЕкСтеп – непрофитном фондацијом и тимом који је био кључан у развоју индијског пројекта Аадхаар.

Поред тога, АИ4Бхарат је покренуо процес регрутовања за свој програм резидента и сарадника за АИ за период 2024-25. Овај једногодишњи преддокторски програм наглашава интензиван рад у обрада природног језика (НЛП), пројекти говора и визије.

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Кумар је искусан технички новинар са специјализацијом у динамичким пресецима АИ/МЛ, маркетиншке технологије и нових поља као што су крипто, блокчејн и NFTс. Са више од 3 године искуства у индустрији, Кумар је успоставио доказане резултате у креирању убедљивих наратива, вођењу проницљивих интервјуа и пружању свеобухватних увида. Кумарова експертиза лежи у производњи садржаја високог утицаја, укључујући чланке, извештаје и истраживачке публикације за истакнуте индустријске платформе. Са јединственим скупом вештина који комбинује техничко знање и приповедање, Кумар се истиче у комуникацији сложених технолошких концепата различитој публици на јасан и привлачан начин.

više чланака
Кумар Гандхарв
Кумар Гандхарв

Кумар је искусан технички новинар са специјализацијом у динамичким пресецима АИ/МЛ, маркетиншке технологије и нових поља као што су крипто, блокчејн и NFTс. Са више од 3 године искуства у индустрији, Кумар је успоставио доказане резултате у креирању убедљивих наратива, вођењу проницљивих интервјуа и пружању свеобухватних увида. Кумарова експертиза лежи у производњи садржаја високог утицаја, укључујући чланке, извештаје и истраживачке публикације за истакнуте индустријске платформе. Са јединственим скупом вештина који комбинује техничко знање и приповедање, Кумар се истиче у комуникацији сложених технолошких концепата различитој публици на јасан и привлачан начин.

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Л3 Блоцкцхаин Деген Цхаин се удружио са инфраструктурном платформом како би решио проблем застоја
Новински извештај технологија
Л3 Блоцкцхаин Деген Цхаин се удружио са инфраструктурном платформом како би решио проблем застоја
Може 13, 2024
Данас је опрано 3,050 ЕТХ из новчаника са паритетним потписом, а 83,017 ЕТХ је остало под контролом хакера, открива Циверс упозорења
tržišta Новински извештај технологија
Данас је опрано 3,050 ЕТХ из новчаника са паритетним потписом, а 83,017 ЕТХ је остало под контролом хакера, открива Циверс упозорења
Може 13, 2024
Рударски алгоритам који покреће ЗКПс Соланд најављује своје лансирање и 20-дневну претпродају рудара
Новински извештај технологија
Рударски алгоритам који покреће ЗКПс Соланд најављује своје лансирање и 20-дневну претпродају рудара
Може 13, 2024
Нотцоин планира да дистрибуира 5% својих токена за 500,000 чланова заједнице и корисника крипто размене
tržišta Новински извештај технологија
Нотцоин планира да дистрибуира 5% својих токена за 500,000 чланова заједнице и корисника крипто размене
Може 13, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.