AI4Bharat lance « Airavata », un LLM personnalisé pour améliorer la langue hindi dans les modèles d'IA
En bref
La société indienne AI4Bharat a annoncé la sortie de « Airavata », un LLM visant à améliorer la prise en charge de la langue hindi dans les modèles d'IA, construit en peaufinant OpenHathi.
Laboratoire de recherche en IA de l'institut d'enseignement supérieur indien IIT Madras AI4Bharat a publié Airavata, un modèle adapté aux instructions pour l'hindi. Selon l'annonce, le modèle a été construit en affinant OpenHathi de Sarvam AI, avec divers ensembles de données en hindi pour le rendre mieux adapté aux tâches d'assistance.
L'hindi est la langue la plus parlée en Inde avec plus de 43 % de locuteurs natifs.
"Actuellement, Airavata prend en charge l'hindi, mais nous prévoyons d'étendre bientôt cette fonctionnalité aux 22 langues indiennes programmées", a déclaré le laboratoire d'IA dans un communiqué. Publication sur LinkedIn. Il est important de noter que les performances de grands modèles de langage (LLM) s'appuie sur des ensembles de données de réglage d'instructions de haute qualité. Cependant, les ensembles de données diversifiés disponibles pour l’hindi sont rares.
Des progrès majeurs ont également été réalisés dans le développement d'ensembles de données pour la pré-formation comme RedPajama ; réglage des instructions comme Alpaca, UltraChat, Dolly, OpenAssistant, LMSYS-Chat ; et des critères d'évaluation comme AlpacaEval, MT-Bench. Cependant, la plupart de ces progrès ont été principalement centrés sur la langue anglaise.
« Il existe une prise en charge limitée des langues indiennes, qui peut être attribuée à l'inclusion fortuite de certaines données sur les langues indiennes qui ont échappé aux filtres de données lors de la pré-formation de ces modèles linguistiques. Cependant, la représentation des données, l'efficacité des tokenizers et l'exécution des tâches pour les langues indiennes sont considérablement inférieures à celles de l'anglais », AI4Bharat Labs. dit dans sa déclaration.
« Les performances dans les langues indiennes, même sur des modèles à source fermée tels que ChatGPT, GPT-4 et d’autres, est inférieur à l’anglais », ajoute-t-il.
AI4Bharat publie des ensembles de données de réglage des instructions
L'équipe AI4Bharat a également publié le programme de réglage des instructions ensembles de données utilisé pour le modèle afin de permettre des recherches plus approfondies sur les IndicLLM.
« Airavata » s'appuie sur des ensembles de données organisés par l'homme et respectueux des accords de licence pour développer des modèles adaptés aux instructions. L'équipe évite spécifiquement d'utiliser les données générées à partir de modèles propriétaires tels que GPT-4 car cela augmenterait les coûts et limiterait l’utilisation gratuite de ces modèles dans d’autres applications en raison de restrictions de licence.
Au lieu de cela, l’équipe pense que les ensembles de données créés par l’homme constituent une approche plus durable pour créer des modèles pour la plupart des langues indiennes.
Cependant, Airavata, comme les autres LLM, se heurte à des défis typiques. Ceux-ci incluent une possibilité d'hallucinations, conduisant à des informations fabriquées et peuvent avoir des difficultés avec l'exactitude sur des sujets complexes ou spécialisés. Il existe également un risque de produire un contenu répréhensible ou biaisé.
L'équipe a précisé que le modèle est destiné à des fins de recherche et n'est recommandé pour aucun cas d'utilisation en production.
Auparavant, le laboratoire AI4Bharat avait lancé une plateforme de transcréation vidéo open source – Chitralekha – qui comprend un système de gestion des effectifs facilitant le processus complet de transcréation d'une vidéo d'une langue à une autre, couvrant la transcription, la traduction et la voix off pour la langue traduite.
Il a été créé en collaboration avec EkStep – une fondation à but non lucratif et l'équipe qui a joué un rôle déterminant dans le développement du projet Aadhaar en Inde.
De plus, AI4Bharat a lancé le processus de recrutement pour son programme de résidents et d'associés en IA pour le mandat 2024-25. Ce programme prédoctoral d'un an met l'accent sur un travail intensif dans traitement du langage naturel (PNL), projets de parole et de vision.
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Kumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.
Plus d'articlesKumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.