AI4Bharat wypuszcza „Airavata”, niestandardowy LLM w celu ulepszenia języka hindi w modelach AI
W skrócie
Indyjska firma AI4Bharat ogłosiła wydanie „Airavata”, LLM mającego na celu ulepszenie obsługi języka hindi w modelach AI, zbudowanego poprzez dostrojenie OpenHathi.
Laboratorium badawcze AI indyjskiego instytutu szkolnictwa wyższego IIT Madras AI4Bharat wypuścił Airavatę, model dostosowany do instrukcji w języku hindi. Zgodnie z zapowiedzią model został zbudowany poprzez dostrojenie OpenHathi Sarvam AI z różnymi zbiorami danych w języku hindi, aby lepiej dostosować go do zadań wspomagających.
Hindi jest najczęściej używanym językiem w Indiach, z ponad 43% rodzimymi użytkownikami tego języka.
„Obecnie Airavata obsługuje język hindi, ale wkrótce planujemy rozszerzyć tę funkcję na wszystkie 22 zaplanowane języki indyjskie” – stwierdziło laboratorium AI w Post na LinkedIn. Warto zauważyć, że wydajność duże modele językowe (LLM) opiera się na wysokiej jakości zbiorach danych dostrajających instrukcje. Jednakże w języku hindi dostępnych jest niewiele różnorodnych zbiorów danych.
Duży postęp osiągnięto także w opracowywaniu zbiorów danych do celów przedtreningowych, takich jak RedPajama; strojenie instrukcji, takie jak Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat; oraz standardy oceny, takie jak AlpacaEval, MT-Bench. Jednak większość tych osiągnięć skupiała się głównie na języku angielskim.
„Obsługa języków indyjskich jest ograniczona, co można przypisać przypadkowemu włączeniu niektórych danych dotyczących języka indyjskiego, które prześlizgnęły się przez filtry danych podczas wstępnego uczenia tych modeli językowych. Jednak reprezentacja danych, skuteczność tokenizatorów i wydajność zadań w przypadku języków indyjskich są znacznie gorsze niż w przypadku języka angielskiego” – AI4Bharat Labs napisano w swoim oświadczeniu.
„Wydajność w językach indyjskich, nawet w modelach o zamkniętym kodzie źródłowym, takich jak ChatGPT, GPT-4 i inne, jest gorsze w porównaniu z angielskim” – dodał.
AI4Bharat publikuje zestawy danych dostrajania instrukcji
Zespół AI4Bharat wydał także instrukcję dostrajania zbiory danych wykorzystane w modelu, aby umożliwić dalsze badania nad IndicLLM.
„Airavata” opiera się na zbiorach danych wybranych przez ludzi, które są zgodne z umowami licencyjnymi, w celu opracowania modeli dostosowanych do instrukcji. Zespół w szczególności unika wykorzystywania danych generowanych na podstawie zastrzeżonych modeli, takich jak GPT-4 ponieważ podniosłoby to koszty i ograniczyłoby swobodne wykorzystanie tych modeli w innych zastosowaniach ze względu na ograniczenia licencyjne.
Zamiast tego zespół uważa, że zbiory danych wybrane przez ludzi stanowią bardziej zrównoważone podejście do tworzenia modeli dla większości języków indyjskich.
Jednak Airavata, podobnie jak inne LLM, napotyka typowe wyzwania. Należą do nich możliwość wystąpienia halucynacji prowadzących do sfabrykowanych informacji i mogą wystąpić problemy z dokładnością w przypadku złożonych lub specjalistycznych tematów. Istnieje również ryzyko tworzenia treści budzących zastrzeżenia lub stronniczych.
Zespół wyjaśnił, że model służy celom badawczym i nie jest zalecany do żadnych zastosowań produkcyjnych.
Wcześniej laboratorium AI4Bharat uruchomiło platformę do transkreacji wideo typu open source – Chitralekha – która obejmuje system zarządzania pracownikami, ułatwiający pełny proces transkreacji wideo z jednego języka na inny, obejmujący transkrypcję, tłumaczenie i lektora dla przetłumaczonego języka.
Powstał we współpracy z EkStep – fundacją non-profit i zespołem, który odegrał kluczową rolę w rozwoju indyjskiego projektu Aadhaar.
Dodatkowo AI4Bharat rozpoczął proces rekrutacji do programu rezydentów i stowarzyszonych AI na kadencję 2024-25. Ten roczny program przeddoktorski kładzie nacisk na intensywną pracę w przetwarzanie języka naturalnego (NLP), projekty mowy i wizji.
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Kumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.
Więcej artykułówKumar jest doświadczonym dziennikarzem technicznym ze specjalizacją w dynamicznych skrzyżowaniach AI/ML, technologii marketingowej i nowych dziedzin, takich jak kryptowaluty, blockchain i NFTS. Dzięki ponad 3-letniemu doświadczeniu w branży Kumar zdobył udokumentowane doświadczenie w tworzeniu fascynujących narracji, przeprowadzaniu wnikliwych wywiadów i dostarczaniu kompleksowych spostrzeżeń. Doświadczenie Kumara polega na tworzeniu treści o dużym wpływie, w tym artykułów, raportów i publikacji badawczych dla czołowych platform branżowych. Dzięki unikalnemu zestawowi umiejętności, który łączy wiedzę techniczną i opowiadanie historii, Kumar przoduje w przekazywaniu złożonych koncepcji technologicznych różnym odbiorcom w jasny i wciągający sposób.