ウィスパー V3 によって OpenAI オープンソースになり、言語を超えて音声認識を拡大
簡単に言えば
OpenAI は、複数言語の音声認識の最先端モデルである WHISPER V3 のオープンソース リリースを発表しました。
人工知能(AI)研究会社 OpenAIは、最先端のモデルをオープンソース化することで、音声認識の分野で大きな飛躍を遂げました。 ささやき大-v3、開発者の日イベント中。
Whisper モデルのこの最新版は、多数の言語の音声を理解して転写する驚くべき能力を実証し、過去の英語中心のモデルを超えてその適用可能性を広げています。
Whisperlarge-v3 は、さまざまな条件下で機能し、さまざまな言語入力を適切に処理します。 による OpenAI、一方、次のような英語のアプリケーションをターゲットにしたモデル tiny.en
および base.en
優れたパフォーマンスを発揮します。 ただし、Whisperlarge-v3 の有効性は、転写される言語によって異なります。
昨年 2 月の発売当初は英語に重点を置いていたこのモデルは、XNUMX 月のバージョン XNUMX で機能を拡張し、さまざまな言語のサポートを追加しましたが、どの言語をサポートするかは明記されていませんでした。
Whisperlarge-v3 は、寛容なライセンスの下で利用可能です GitHubのを使用すると、ユーザーはさまざまな形式のコンテンツをクラス最高の精度で書き写すことができます。 その独自のタイムスタンプ機能は大きな価値を追加し、次のようなビデオ プラットフォームでの字幕生成に革命を起こす可能性があります。 YouTube.
OpenAIの多言語音声認識の画期的な進歩
Whisperlarge-v3 は、最初にオーディオを 30 秒のクリップにセグメント化し、次にエンコーダとデコーダを含む複雑なシステムを通して実行して出力を生成することでオーディオを処理します。
これらのコンポーネントは連携して動作し、話された言葉のテキスト転写を予測します。 Whisperlarge-v3 の技術的なハイライトの XNUMX つは、多言語音声を文字に起こすだけでなく、英語に翻訳する言語識別機能です。
当初の計画では人気のある機能との統合が提案されていましたが、 ChatGPT チャットボットとの直接音声対話を容易にするため、 OpenAI は、一般のユーザーに Whisperlarge-v3 への直接アクセスを許可することを選択しました。 現在、Whisper の対象読者は主に研究者であり、一般大衆ではないことは注目に値します。
OpenAI堅牢な音声処理の進歩への取り組みは、Whisperlarge-v3 をオープンソースにするという決定に明らかです。 この組織は、この分野での実用的なアプリケーションの開発とさらなる研究を促進するという目的を強調しています。
OpenAI は、英語以外の音声の大部分を含む、インターネットから収集された 680,000 時間の綿密に監視されたデータを特徴とする膨大なデータセットを使用して AI ツールを洗練しました。 このステップは、イノベーションを促進し、音声認識テクノロジーの範囲を世界中に広げることを目的としています。
免責事項
に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。
著者について
ニックは、熟練したアナリスト兼ライターです。 Metaverse Post、特に AI/ML、XR、VR、オンチェーン分析、ブロックチェーン開発に重点を置き、ペースの速いテクノロジーの世界に対する最先端の洞察を提供することに特化しています。 彼の記事はさまざまな読者を惹きつけて情報を提供し、テクノロジーの進歩を先取りするのに役立ちます。 経済学と経営学の修士号を取得しているニックは、ビジネスの世界の微妙な違いと、新しいテクノロジーとの関わりをしっかりと理解しています。
より多くの記事ニックは、熟練したアナリスト兼ライターです。 Metaverse Post、特に AI/ML、XR、VR、オンチェーン分析、ブロックチェーン開発に重点を置き、ペースの速いテクノロジーの世界に対する最先端の洞察を提供することに特化しています。 彼の記事はさまざまな読者を惹きつけて情報を提供し、テクノロジーの進歩を先取りするのに役立ちます。 経済学と経営学の修士号を取得しているニックは、ビジネスの世界の微妙な違いと、新しいテクノロジーとの関わりをしっかりと理解しています。