AI4Bharat випускає «Airavata», спеціальний LLM для покращення мови гінді в моделях ШІ
Коротко
Індійський AI4Bharat оголосив про випуск «Airavata», LLM для покращення підтримки мови хінді в моделях штучного інтелекту, створеного шляхом тонкого налаштування OpenHathi.
Дослідницька лабораторія ШІ Індійського інституту вищої освіти IIT Madras AI4Bharat випустила Airavata, налаштовану модель для хінді з інструкціями. Згідно з оголошенням, модель була створена шляхом тонкого налаштування OpenHathi Sarvam AI з різноманітними наборами даних хінді, щоб зробити її краще придатною для допоміжних завдань.
Гінді є найбільш поширеною мовою в Індії: понад 43% її носіїв.
«Наразі Airavata підтримує хінді, але незабаром ми плануємо розширити це до всіх 22 запланованих індійських мов», — заявили в лабораторії ШІ. Повідомлення LinkedIn. Важливо відзначити, що продуктивність великі мовні моделі (LLM) покладається на високоякісні набори даних налаштування інструкцій. Однак існує дефіцит різноманітних наборів даних для хінді.
Значного прогресу також було досягнуто в розробці наборів даних для попереднього навчання, таких як RedPajama; налаштування інструкцій, таких як Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; і тести оцінки, такі як AlpacaEval, MT-Bench. Однак більшість цих досягнень переважно зосереджено на англійській мові.
«Існує певна обмежена підтримка індійських мов, що можна пояснити випадковим включенням деяких даних індійської мови, які проскочили через фільтри даних під час попереднього навчання цих мовних моделей. Однак представлення даних, ефективність токенізаторів і продуктивність завдань для індійських мов значно відстають від англійської», AI4Bharat Labs йдеться у своїй заяві.
«Продуктивність індійськими мовами, навіть на закритих моделях, таких як ChatGPT, GPT-4 та інші, поступається порівняно з англійською», – додається в ньому.
AI4Bharat випускає набори даних налаштування інструкцій
Команда AI4Bharat також випустила інструкцію з налаштування набори даних використовується для моделі, щоб уможливити подальші дослідження для IndicLLM.
«Airavata» покладається на створені людиною набори даних, які відповідають ліцензійним угодам, для розробки моделей, налаштованих на інструкції. Команда спеціально уникає використання даних, згенерованих із власних моделей, таких як GPT-4 оскільки це збільшить витрати та обмежить вільне використання цих моделей в інших програмах через ліцензійні обмеження.
Натомість команда вважає, що підготовлені людьми набори даних є більш стійким підходом для створення моделей для більшості індійських мов.
Однак Airavata, як і інші LLM, стикається з типовими проблемами. Вони включають ймовірність галюцинацій, що призводять до сфабрикованої інформації та можуть заважати точності в складних або спеціалізованих темах. Існує також ризик створення небажаного чи упередженого вмісту.
Команда пояснила, що модель призначена для дослідницьких цілей і не рекомендована для використання у виробництві.
Раніше лабораторія AI4Bharat запустила платформу транскреації відео з відкритим кодом – Chitralekha – яка включає систему управління робочою силою, яка полегшує повний процес транскреції відео з однієї мови на іншу, охоплюючи транскрипцію, переклад і озвучення мови перекладу.
Він був створений у співпраці з EkStep – некомерційною організацією та командою, яка відіграла важливу роль у розвитку індійського проекту Aadhaar.
Крім того, AI4Bharat ініціював процес набору для своєї програми AI резидентів і асоційованих співробітників на термін 2024-25. Ця річна переддокторська програма наголошує на інтенсивній роботі в обробка природного мови (НЛП), проекти мовлення та бачення.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Кумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.
інші статтіКумар є досвідченим технічним журналістом, який спеціалізується на динамічному перетині ШІ/ML, маркетингових технологій і нових галузей, таких як криптовалюта, блокчейн і NFTс. Завдяки більш ніж 3-річному досвіду роботи в галузі Кумар має досвід створення переконливих оповідей, проведення проникливих інтерв’ю та надання вичерпної інформації. Досвід Кумара полягає у створенні вражаючого контенту, зокрема статей, звітів і дослідницьких публікацій для відомих галузевих платформ. Володіючи унікальним набором навичок, який поєднує в собі технічні знання та розповідь, Кумар чудово вміє доносити складні технологічні концепції до різноманітної аудиторії в чіткій та привабливій формі.