新闻报道 专业技术
2024 年 1 月 25 日

AI4Bharat 发布“Airavata”,一个定制的法学硕士,用于改进 AI 模型中的印地语

简单来说

印度的 AI4Bharat 宣布发布“Airavata”,这是一个法学硕士,旨在改进 AI 模型中的印地语支持,通过微调 OpenHathi 构建。

AI4Bharat 发布“Airavat”,一个定制的法学硕士,用于改进印地语支持

印度高等教育机构 IIT Madras 的人工智能研究实验室 AI4巴拉特 发布了 Airavata,一个针对印地语的指令调整模型。据公告称,该模型是通过对 Sarvam AI 的 OpenHathi 进行微调而构建的,具有多种印地语数据集,使其更适合辅助任务。

印地语是印度使用最广泛的语言,超过 43% 的人以印地语为母语。

AI 实验室在一份声明中表示:“目前,Airavata 支持印地语,但我们计划很快将其扩展到所有 22 种预定的印度语。” LinkedIn。值得注意的是,性能 大型语言模型 (法学硕士)依赖于高质量的指令调整数据集。然而,印地语可用的各种数据集很缺乏。

在开发 RedPajama 等预训练数据集方面也取得了重大进展; Alpaca、UltraChat、Dolly、OpenAssistant、LMSYS-Chat 等指令调优;以及 AlpacaEval、MT-Bench 等评估基准。然而,这些进步大部分主要集中在英语上。

“对印度语言的支持有限,这可以归因于在这些语言模型的预训练过程中偶然包含了一些通过数据过滤器漏掉的印度语言数据。然而,印度语言的数据表示、分词器的功效和任务性能远远落后于英语。”AI4Bharat Labs 在声明中说.

“印度语言的表现,即使是在闭源模型上,例如 ChatGPT, GPT-4 和其他语言相比,英语的质量较差,”它补充道。

AI4Bharat 发布指令调优数据集

AI4Bharat团队也发布了指令调优 数据集 用于模型以便对 IndicLLM 进行进一步研究。

“Airavata”依赖于对许可协议友好的人工数据集来开发指令调整模型。该团队特别避免使用从专有模型生成的数据,例如 GPT-4 因为这会增加成本,并由于许可限制而限制这些模型在其他应用程序中的免费使用。

相反,该团队认为,人工管理的数据集是为大多数印度语言构建模型的更可持续的方法。

然而,与其他法学硕士一样,Airavata 也遇到了典型的挑战。其中包括产生幻觉的可能性,导致捏造信息,并且可能难以准确地处理复杂或专业的主题。还存在产生令人反感或有偏见的内容的风险。

该团队澄清说,该模型仅用于研究目的,不建议用于任何生产用例。

此前,AI4Bharat 实验室推出了一个开源视频创译平台 Chitralekha,其中包括一个劳动力管理系统,可促进视频从一种语言到另一种语言的完整创译过程,包括翻译语言的转录、翻译和旁白。

它是与 EkStep 合作创建的,EkStep 是一家非盈利基金会,该团队在开发印度 Aadhaar 项目方面发挥了重要作用。

此外,AI4Bharat 已启动 2024-25 学期 AI 常驻和助理计划的招聘流程。这个为期一年的博士前课程强调密集工作 自然语言处理 (NLP)、演讲和视觉项目。

免责声明

在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。

关于作者

Kumar 是一位经验丰富的科技记者,专注于人工智能/机器学习、营销技术以及加密货币、区块链和人工智能等新兴领域的动态交叉领域。 NFTs。 Kumar 拥有超过 3 年的行业经验,在撰写引人入胜的叙述、进行富有洞察力的采访和提供全面的见解方面建立了良好的记录。 Kumar 的专长在于制作高影响力的内容,包括为著名行业平台制作文章、报告和研究出版物。 库马尔拥有结合技术知识和讲故事的独特技能,擅长以清晰且引人入胜的方式向不同的受众传达复杂的技术概念。

更多文章
库马尔·甘达夫
库马尔·甘达夫

Kumar 是一位经验丰富的科技记者,专注于人工智能/机器学习、营销技术以及加密货币、区块链和人工智能等新兴领域的动态交叉领域。 NFTs。 Kumar 拥有超过 3 年的行业经验,在撰写引人入胜的叙述、进行富有洞察力的采访和提供全面的见解方面建立了良好的记录。 Kumar 的专长在于制作高影响力的内容,包括为著名行业平台制作文章、报告和研究出版物。 库马尔拥有结合技术知识和讲故事的独特技能,擅长以清晰且引人入胜的方式向不同的受众传达复杂的技术概念。

Hot Stories
加入我们的时事通讯。
最新消息

从 Ripple 到大型绿色 DAO:加密货币项目如何为慈善事业做出贡献

让我们探索利用数字货币潜力进行慈善事业的举措。

了解更多

AlphaFold 3、Med-Gemini 等:2024 年人工智能改变医疗保健的方式

人工智能在医疗保健领域有多种表现形式,从发现新的遗传相关性到增强机器人手术系统的能力……

了解更多
加入我们的创新技术社区
了解更多
查看更多
警告世界币的 WLD 代币将面临巨大的抛售压力,未来几个月将有更多解锁 DeFi2 拜比特交易者
市场 新闻报道 专业技术
警告世界币的 WLD 代币将面临巨大的抛售压力,未来几个月将有更多解锁 DeFi2 拜比特交易者
2024 年 5 月 14 日
加密货币交易所 Coinbase 遭遇系统故障,用户资金安全 Wile 公司调查问题
市场 新闻报道 专业技术
加密货币交易所 Coinbase 遭遇系统故障,用户资金安全 Wile 公司调查问题
2024 年 5 月 14 日
从 Ripple 到大型绿色 DAO:加密货币项目如何为慈善事业做出贡献
分析 线上营销 Wiki 企业 教育 品质生活 市场 软件 专业技术
从 Ripple 到大型绿色 DAO:加密货币项目如何为慈善事业做出贡献
2024 年 5 月 13 日
AlphaFold 3、Med-Gemini 等:2024 年人工智能改变医疗保健的方式
AI Wiki 分析 消化 检讨 企业 市场 新闻报道 软件 故事和评论 专业技术
AlphaFold 3、Med-Gemini 等:2024 年人工智能改变医疗保健的方式
2024 年 5 月 13 日