Meta が 4,000 以上の話し言葉を認識するオープンソースの音声 AI を開発
簡単に言えば
同社の MMS プロジェクトは 4,000 以上の言語を認識できます。
他の公表されている AI プロジェクトのほとんどと同様に、Meta は言語の多様性を維持するためにモデルとコードを共有しています。
この活動を通じて、彼らは世界の信じられないほどの言語の多様性を維持することに少しでも貢献したいと考えています。
Meta 作成しました 斬新なひねりを加えた AI 言語モデル ChatGPT。 オープンソース MMSプロジェクト は、言語の多様性を維持し、研究を促進するために作成されており、4,000 以上の話し言葉を認識し、1,100 以上のテキスト (音声) を生成できます。 同社は、 公開 その目標をさらに推進するために、今日のモデルとコードを開発します。
「私たちは、研究コミュニティの他の人々が私たちの研究に基づいて構築することを奨励するために、私たちの作品とコードを公に共有しています」とメタ氏は書いた。 「この取り組みを通じて、私たちは世界の膨大な言語の多様性を保存したいと考えています。」
文字起こしラベルのない大量の音声で音声認識エンジンと音声合成モデルをトレーニングするのは一般的に困難です。 ラベルは重要です 機械学習、データを正しく識別して分類できます。 しかし、今後数十年で消滅する言語については、「このデータはまったく存在しない」とメタ氏は説明する。
メタは、宗教文書の音声録音を使用して、型破りな方法でデータを収集しました。 同社は「聖書などの宗教文書の翻訳を使用した。聖書はさまざまな言語に翻訳されているため、テキストベースの言語翻訳研究として多くの言語で広く研究されている」と述べた。 私たちは、人々がこれらのテキストをさまざまな言語で読んでいる音声録音を、公開されている翻訳から抽出しました。」 Meta の研究者は 4,000 以上の言語を .
このアプローチは、キリスト教の世界観を支持する非常に偏った AI モデルのレシピのように聞こえます。 ただし、このアイデアを嘲笑う前に、メタの観点から考えてください。研究者らは、用語的にはるかに限定されたコネクショニスト CTC 時間分類 (またはシーケンス間モデルまたはシーケンス タイプ モデル) を採用しているため、これが事実であると信じています。と比較した計算能力 大規模な言語モデル (シーケンス タイプとも呼ばれる) または音声認識用の逐次モデル。 メタ氏は、これにより、ほとんどの男性話者が録音した宗教的録音に男性の偏見が生じることはなかったと述べている。
Meta は、wav2vec 2.0 をトレーニングするために「自己教師あり音声表現学習」モデルである wav2vec 2.0 を使用しました。 アライメントモデル データをより使いやすくします。 Meta がラベルなしデータから自己教師化した自己教師あり音声モデルは、大きな成果をもたらしました。 Meta は、大規模な多言語音声モデルが既存のモデルと比較して良好なパフォーマンスを示し、特に他の言語と比較して 10 倍の言語をカバーしていることを発見しました。 ウィスパー。 Meta は単語誤り率の半分を達成しましたが、Massively Multilingual Speech は 11 倍の言語をカバーしました。
Meta は、新しい Speech-to-Text モデルは完璧ではないと述べています。 たとえば、単語やフレーズを誤訳する可能性があり、その結果、不快な発言や不正確な発言が生じる可能性があると同社は書いている。 AI テクノロジーの責任ある開発は、AI コミュニティ間の協力を通じて達成されなければなりません。
Meta はオープンソース研究用に MMS をリリースしており、言語使用の消滅傾向を逆転させることができると期待しています。 このビジョンでは、支援技術、TTS、さらには仮想現実や拡張現実技術によって、誰もが母国語で話し、学ぶことができるようになるかもしれません。 「私たちは、テクノロジーが逆の効果をもたらし、人々が自分の好みの言語で話すことで情報にアクセスしたりテクノロジーを利用したりできるようになるため、人々が言語を維持するよう促す世界を構想しています。」
- 最近メタさん 発表しました 最近のリストラ努力にも関わらず、同社は第2023四半期の売上高が予想外に増加し、投資家を驚かせた。 水曜日には株価が12%上昇した。
関連記事をもっと読む:
- 4,000人が知らないうちにAIロボット心理療法を受けた
- ディスラプションの破壊: ステージ メタのテレポート プラーク アドレスがメタバースを引き継ぐ方法。
- FTC はメタの VR への野望を訴訟で抑制
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。