AI4Bharat 發布“Airavata”,一個定制的法學碩士,用於改進 AI 模型中的印地語
簡單來說
印度的 AI4Bharat 宣布發布“Airavata”,這是一個法學碩士,旨在改進 AI 模型中的印地語支持,透過微調 OpenHathi 構建。
印度高等教育機構 IIT Madras 的人工智慧研究實驗室 AI4巴拉特 發布了 Airavata,一個針對印地語的指令調整模型。據公告稱,該模型是透過對 Sarvam AI 的 OpenHathi 進行微調而構建的,具有多種印地語資料集,使其更適合輔助任務。
印地語是印度使用最廣泛的語言,超過 43% 的人以印地語為母語。
AI 實驗室在聲明中表示:“目前,Airavata 支持印地語,但我們計劃很快將其擴展到所有 22 種預定的印度語。” LinkedIn帖子。值得注意的是,性能 大型語言模型 (法學碩士)依賴高品質的指令調整資料集。然而,印地語可用的各種數據集很缺乏。
在開發 RedPajama 等預訓練資料集方面也取得了重大進展; Alpaca、UltraChat、Dolly、OpenAssistant、LMSYS-Chat 等指令調優;以及 AlpacaEval、MT-Bench 等評估基準。然而,這些進步大部分主要集中在英語上。
「對印度語言的支援有限,這可以歸因於在這些語言模型的預訓練過程中偶然包含了一些透過資料過濾器漏掉的印度語言資料。然而,印度語言的數據表示、分詞器的功效和任務表現遠遠落後於英語。」AI4Bharat Labs 在其聲明中表示.
「印度語言的表現,即使是在閉源模型上,例如 ChatGPT, GPT-4 和其他語言相比,英語的品質較差,」它補充道。
AI4Bharat 發布指令調優資料集
AI4Bharat團隊也發布了指令調優 數據集 用於模型以便對 IndicLLM 進行進一步研究。
「Airavata」依賴對許可協議友好的人工資料集來開發指令調整模型。該團隊特別避免使用從專有模型產生的數據,例如 GPT-4 因為這會增加成本,並由於許可限製而限制這些模型在其他應用程式中的免費使用。
相反,該團隊認為,人工管理的數據集是為大多數印度語言建立模型的更永續的方法。
然而,與其他法學碩士一樣,Airavata 也遇到了典型的挑戰。其中包括產生幻覺的可能性,導致捏造訊息,並且可能難以準確地處理複雜或專業的主題。也存在產生令人反感或有偏見的內容的風險。
團隊澄清說,該模型僅用於研究目的,不建議用於任何生產用例。
先前,AI4Bharat 實驗室推出了一個開源視訊創譯平台 Chitralekha,其中包括一個勞動力管理系統,可促進視訊從一種語言到另一種語言的完整創譯過程,包括翻譯語言的轉錄、翻譯和旁白。
它是與 EkStep 合作創建的,EkStep 是一家非營利基金會,該團隊在開發印度 Aadhaar 專案方面發揮了重要作用。
此外,AI4Bharat 已啟動 2024-25 學期 AI 常駐和助理計畫的招募流程。這個為期一年的博士前課程強調密集工作 自然語言處理 (NLP)、演講和視覺項目。
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
Kumar 是一位經驗豐富的科技記者,專門研究人工智慧/機器學習、行銷技術以及加密貨幣、區塊鏈和人工智慧等新興領域的動態交叉領域。 NFTs。 Kumar 擁有超過 3 年的行業經驗,在撰寫引人入勝的敘述、進行富有洞察力的採訪和提供全面的見解方面建立了良好的記錄。 Kumar 的專長在於製作高影響力的內容,包括為著名產業平台製作文章、報告和研究出版物。 庫馬爾擁有結合技術知識和講故事的獨特技能,擅長以清晰且引人入勝的方式向不同的受眾傳達複雜的技術概念。
更多文章Kumar 是一位經驗豐富的科技記者,專門研究人工智慧/機器學習、行銷技術以及加密貨幣、區塊鏈和人工智慧等新興領域的動態交叉領域。 NFTs。 Kumar 擁有超過 3 年的行業經驗,在撰寫引人入勝的敘述、進行富有洞察力的採訪和提供全面的見解方面建立了良好的記錄。 Kumar 的專長在於製作高影響力的內容,包括為著名產業平台製作文章、報告和研究出版物。 庫馬爾擁有結合技術知識和講故事的獨特技能,擅長以清晰且引人入勝的方式向不同的受眾傳達複雜的技術概念。