ニュースレポート テクノロジー
2023 年 11 月 07 日

ウィスパー V3 によって OpenAI オープンソースになり、言語を超えて音声認識を拡大

簡単に言えば

OpenAI は、複数言語の音声認識の最先端モデルである WHISPER V3 のオープンソース リリースを発表しました。

OpenAI Whisper V3 を発表: 言語を超えて音声認識に革命を起こす

人工知能(AI)研究会社 OpenAIは、最先端のモデルをオープンソース化することで、音声認識の分野で大きな飛躍を遂げました。 ささやき大-v3、開発者の日イベント中。

Whisper モデルのこの最新版は、多数の言語の音声を理解して転写する驚くべき能力を実証し、過去の英語中心のモデルを超えてその適用可能性を広げています。

Whisperlarge-v3 は、さまざまな条件下で機能し、さまざまな言語入力を適切に処理します。 による OpenAI、一方、次のような英語のアプリケーションをターゲットにしたモデル tiny.en および base.en 優れたパフォーマンスを発揮します。 ただし、Whisperlarge-v3 の有効性は、転写される言語によって異なります。

昨年 2 月の発売当初は英語に重点を置いていたこのモデルは、XNUMX 月のバージョン XNUMX で機能を拡張し、さまざまな言語のサポートを追加しましたが、どの言語をサポートするかは明記されていませんでした。

Whisperlarge-v3 は、寛容なライセンスの下で利用可能です GitHubのを使用すると、ユーザーはさまざまな形式のコンテンツをクラス最高の精度で書き写すことができます。 その独自のタイムスタンプ機能は大きな価値を追加し、次のようなビデオ プラットフォームでの字幕生成に革命を起こす可能性があります。 YouTube.

情報源: OpenAI

OpenAIの多言語音声認識の画期的な進歩

Whisperlarge-v3 は、最初にオーディオを 30 秒のクリップにセグメント化し、次にエンコーダとデコーダを含む複雑なシステムを通して実行して出力を生成することでオーディオを処理します。

これらのコンポーネントは連携して動作し、話された言葉のテキスト転写を予測します。 Whisperlarge-v3 の技術的なハイライトの XNUMX つは、多言語音声を文字に起こすだけでなく、英語に翻訳する言語識別機能です。

当初の計画では人気のある機能との統合が提案されていましたが、 ChatGPT チャットボットとの直接音声対話を容易にするため、 OpenAI は、一般のユーザーに Whisperlarge-v3 への直接アクセスを許可することを選択しました。 現在、Whisper の対象読者は主に研究者であり、一般大衆ではないことは注目に値します。

OpenAI堅牢な音声処理の進歩への取り組みは、Whisperlarge-v3 をオープンソースにするという決定に明らかです。 この組織は、この分野での実用的なアプリケーションの開発とさらなる研究を促進するという目的を強調しています。

OpenAI は、英語以外の音声の大部分を含む、インターネットから収集された 680,000 時間の綿密に監視されたデータを特徴とする膨大なデータセットを使用して AI ツールを洗練しました。 このステップは、イノベーションを促進し、音声認識テクノロジーの範囲を世界中に広げることを目的としています。

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

ニックは、熟練したアナリスト兼ライターです。 Metaverse Post、特に AI/ML、XR、VR、オンチェーン分析、ブロックチェーン開発に重点を置き、ペースの速いテクノロジーの世界に対する最先端の洞察を提供することに特化しています。 彼の記事はさまざまな読者を惹きつけて情報を提供し、テクノロジーの進歩を先取りするのに役立ちます。 経済学と経営学の修士号を取得しているニックは、ビジネスの世界の微妙な違いと、新しいテクノロジーとの関わりをしっかりと理解しています。

より多くの記事
ニック・アスティ
ニック・アスティ

ニックは、熟練したアナリスト兼ライターです。 Metaverse Post、特に AI/ML、XR、VR、オンチェーン分析、ブロックチェーン開発に重点を置き、ペースの速いテクノロジーの世界に対する最先端の洞察を提供することに特化しています。 彼の記事はさまざまな読者を惹きつけて情報を提供し、テクノロジーの進歩を先取りするのに役立ちます。 経済学と経営学の修士号を取得しているニックは、ビジネスの世界の微妙な違いと、新しいテクノロジーとの関わりをしっかりと理解しています。

Hot Stories
ニュースレターにご参加ください。
最新ニュース

コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10

by ヴィクトリア・パルチク
2024 年 5 月 14 日

リップルからビッググリーンDAOまで:仮想通貨プロジェクトはどのように慈善活動に貢献するのか

慈善活動のためにデジタル通貨の可能性を活用する取り組みを検討してみましょう。

詳細を知りたい

AlphaFold 3、Med-Gemini、その他: AI が 2024 年に医療を変革する方法

AI は、新しい遺伝的相関関係の発見からロボット手術システムの強化に至るまで、医療分野でさまざまな形で現れます。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10
AI Wiki ダイジェスト 教育 ライフスタイル ソフトウェア テクノロジー
コンテンツ作成、ビデオ編集などのための無料 AI ツール トップ 10
2024 年 5 月 14 日
香港証券委員会、仮想通貨業界を狙ったディープフェイク詐欺を警告:投資家の安全への影響
ライフスタイル セキュリティ Wiki ソフトウェア ストーリーとレビュー テクノロジー
香港証券委員会、仮想通貨業界を狙ったディープフェイク詐欺を警告:投資家の安全への影響
2024 年 5 月 14 日
リップルとEvmosがEvmOSテクノロジーを使用したXRPレジャーEVMサイドチェーンの開発で協力
ビジネス ニュースレポート テクノロジー
リップルとEvmosがEvmOSテクノロジーを使用したXRPレジャーEVMサイドチェーンの開発で協力
2024 年 5 月 14 日
5ireChain、ネットワークストレステスト向けのインセンティブ付き「Testnet Thunder: GA」を開始、ユーザーに参加を呼びかけ Airdrop 報酬
ニュースレポート テクノロジー
5ireChain、ネットワークストレステスト向けのインセンティブ付き「Testnet Thunder: GA」を開始、ユーザーに参加を呼びかけ Airdrop 報酬
2024 年 5 月 14 日
CRYPTOMERIA LABS PTE。 株式会社。