SoundStorm: Google、リアルタイム音声複製が可能な恐ろしい AI ツールを発表
簡単に言えば
Google は、効率的かつ非自己回帰オーディオ生成のための最先端モデルである SoundStorm を導入しました。
双方向アテンションと信頼性ベースの並列デコーディングを採用し、生成時間を大幅に短縮しながら高品質のオーディオを生成します。
自然な対話を合成する機能もあります。
Google は、人工知能テクノロジーにおける最新の画期的な技術を導入しました。 サウンドストーム、効率的かつ非自己回帰オーディオ生成のための最先端のモデル。 という能力を持って、 対話を合成する さまざまな音声を使用できる SoundStorm は、書かれたテキストからオーディオ コンテンツを生成したり、リアルなポッドキャストを作成したりするなど、アプリケーションに新たな可能性をもたらします。
前作とは異なり AudioLM, SoundStorm は、オーディオを 30 秒単位で生成する新しいアーキテクチャを採用しており、効率が向上しています。 このモデルは、双方向アテンションと信頼性に基づく並列デコーディングを利用することで、生成時間を大幅に短縮しながら高品質のオーディオを生成します。 Google の TPU-v4 ハードウェアでは、SoundStorm はわずか 30 秒で 0.5 秒のオーディオを生成でき、速度が大幅に向上しました。
SoundStorm のトレーニングは、100,000 時間の対話からなる大規模なデータセットを使用して実施され、話し言葉のパターンを確実に理解できるようになりました。 このモデルは、AudioLM によって達成されるオーディオ品質を維持しながら、音声と音響条件の驚くべき一貫性を実現します。 この画期的な進歩により、SoundStorm は以前のバージョンよりも XNUMX 桁速くなり、スケーラブルなオーディオ生成の可能性が実証されました。
SoundStorm の重要な機能の 30 つは、SPEAR-TTS のテキストからセマンティックへのモデリング段階を活用して、自然な対話を合成する機能です。 話者交代と短い音声プロンプトを含むトランスクリプトを提供することにより、ユーザーは話された内容と話者の音声を制御できます。 テスト中、SoundStorm は 2 台の TPU-v4 上で XNUMX 秒のダイアログ セグメントをわずか XNUMX 秒で合成する能力を実証し、その効率性と多用途性を示しました。
音声プロンプト
合成ダイアログ
標準のベースラインと比較すると、SoundStorm によって生成されたオーディオは AudioLM と同等の品質であり、優れた一貫性と音響的完全性を示します。 特に、音声サンプルの提供を求められた場合、モデルは話者の音声を驚くべき精度で保存し、本物のような会話を生成する能力を大幅に高めます。
SoundStorm の機能は優れていますが、可能性を認識して解決することが重要です。 倫理的な問題。 アルゴリズムのトレーニング データには、アクセントや音声の特徴に関するバイアスが導入される可能性があります。 声を真似する能力が悪用される可能性がある なりすまし または生体認証を回避するため。 Google は、そのような不正行為を防ぐために保護を導入することの重要性を強調しています。 検出可能性を確保する 専用の分類器を通じて作成された音声を分析します。
Google の AI の倫理原則は、潜在的な危険や制約に対処するための継続的な取り組みを推進しています。 この組織は、トレーニング データとモデルの出力への影響を徹底的に調査する必要があることを認識しています。 また、この技術を倫理的に使用するために、合成音声を検出するための音声透かしなどの追加のアプローチも調査する予定です。
- SoundStorm は、AI を活用したオーディオ制作における大きな前進であり、高品質で効率的なニューラル オーディオ コーデック由来のオーディオ表現を提供します。 Google は、SoundStorm のメモリと処理の必要性が低いことで、オーディオ生成の研究がより幅広いコミュニティにアクセスしやすくなると期待しています。 Google は、責任ある AI 慣行を維持し、SoundStorm の安全かつ責任ある使用を保証すること、および技術の進化に伴うこの分野での同等のブレークスルーを保証することに今後も専念していきます。
- 谷, Microsoft の最新の Text-to-Speech (TTS) モデルは、これらのシステムが音声を生成する方法を強化する上で大きな前進です。 VALL-Eは、 TTSモデル 音声の XNUMX 秒サンプルを聞くだけで、どんな声でも音声を生成できるトランスフォーマーに基づいています。 これは、新しい音声を開発するために大幅に長いトレーニング期間を必要とした以前のモデルに比べて大きな進歩です。
AI について詳しく読む:
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。
より多くの記事Damir は、チームリーダー、プロダクトマネージャー、編集者です。 Metaverse PostAI/ML、AGI、LLM、メタバース、 Web3に関連するフィールド。 彼の記事は、毎月 10 万人を超えるユーザーという膨大な読者を魅了しています。 彼はSEOとデジタルマーケティングでXNUMX年の経験を持つ専門家のようです。 ダミールはMashable、Wired、 Cointelegraph、The New Yorker、Inside.com、Entrepreneur、BeInCrypto、およびその他の出版物。 彼はデジタル遊牧民として UAE、トルコ、ロシア、CIS の間を旅しています。 ダミールは物理学の学士号を取得しており、これにより、インターネットの絶え間なく変化する状況で成功するために必要な批判的思考スキルが身についたと信じています。