AI生成コンテンツ
2023 年 3 月 08 日

OpenAI 音声からテキストへの文字起こしと翻訳のための最先端テクノロジーである最新の Whisper API を発表

簡単に言えば

OpenAI は本日、Whisper speechtotext モデルのホスト バージョンである Whisper API をリリースしました。

これの初登場 API は、デジタル通信の分野で革新的で革新的なものと見なされています。

この新しいテクノロジーは、業界の専門家の間で興奮の波を巻き起こし、人々がボットとやり取りする方法を変えることが期待されています。

OpenAI 本日発売 ウィスパー API、2022 年 XNUMX 月にリリースされた、オープンソースの Whisper 音声テキスト変換モデルのホスト型バージョンです。 ChatGPT API は、 ChatGPT SDK を使用すると、開発者はテキスト メッセージを送受信できるチャットボットを構築できます。

OpenAI は、音声からテキストへの転写と翻訳のための最先端のテクノロジーである最新の Whisper API をリリースしました。
続きを読む: ChatGPT API が利用可能になり、開発者に水門が開かれます

OpenAI Whisper の価格は 0.006 分あたり 300 ドルで、4 ドルの価格でさまざまな言語の「堅牢な」音声文字起こしと言語翻訳を実行できる自動音声認識システムであると、同社は主張しています。 M3A、MP4、MPXNUMX、MPEG、MPGA、WAV、WEBM 形式のファイルを取り込むことができます。

人気の根底にある Google などの巨人による技術サービス、Amazon、Metaは大きく進化した音声認識システムです。 しかし、Whisper が他のものと違うのは、次のとおりです。 OpenAI 社長兼会長のグレッグ ブロックマン氏によって、インターネットから収集された 680,000 時間の多言語および「マルチタスク」データに基づいてトレーニングされました。 これにより、独特のアクセント、背景雑音、専門用語の認識が改善されたことに加えて、音声認識も向上しました。

Brockman 氏によると、開発者のエコシステムは、 彼らがリリースしたモデル 不十分と判断したためです。 代わりに、同社は同じモデルのはるかに高速で便利なバージョンである Whisper API に焦点を当てました。

Brockman 氏によると、開発者のエコシステムは、彼らがリリースしたモデルを中心に構築されていませんでした。 代わりに、同じモデルのより高速で便利なバージョンである Whisper API に焦点を当てました。
続きを読む: GPT-4-ベース ChatGPT 優れた性能 GPT-3 570 倍

Brockman 氏によると、企業は、音声転写技術の実装に関してさまざまな障壁によって妨げられています。 2020 年の Statista 調査のデータがそれを証明しています。企業が技術読み上げテクノロジを採用していない理由を尋ねたところ、主な理由は、アクセントや方言を正しく認識することの難しさ、正確さ、および費用です。

Whisper には、特に「次の単語」の予測の分野で限界があります。 OpenAI おそらく、それを試みているため、実際には話されていない単語がトランスクリプトに含まれる可能性があると警告しています。 次を予想する 音声で単語を録音し、音声録音自体を書き起こします。 さらに、Whisper は言語間で同じように機能するわけではなく、トレーニング データで十分に表現されていない言語に関してはエラー率が高くなります。

残念ながら、高度な音声認識システムでさえ、偏見から逃れることはできませんでした。これは主に、ほとんどの企業が主に白人のアメリカ人のスピーチで構成されるデータセットに依存しているという事実によるものです。 2020 年には、 スタンフォード大学の研究 Amazon、Apple、Google、IBM、および Microsoft によって作成されたシステムは、アフリカ系アメリカ人のユーザーの発言を誤解する可能性がはるかに高いことが判明しました。 実際、システムはアフリカ系アメリカ人のユーザーが話す言葉を解釈する際に XNUMX 倍のエラーを起こしました。 研究は黒人と白人のアメリカ人の格差にのみ焦点を当てていましたが、ネイティブではないスピーカーや地域のアクセントを持つ人々がシステムを使用すると、システムもより多くの間違いを犯す可能性がありました.

これらすべての問題にもかかわらず、 OpenAI Whisper API を使用すると、現在のアプリ、サービス、製品、ツールが改善されると考えています。 すでに、AI を活用した言語学習アプリ Speak は、API を利用して新しいアプリ内仮想コンパニオンを作成しています。 によると OpenAIとすると、音声テキスト変換市場は、5.4 年の 2026 億ドルから 2.2 年までに 2021 億ドルの価値に達する可能性があります。 OpenAI そこに大きな形で侵入します。

「私たちは、柔軟で強力なユニバーサル インテリジェンスになりたいと考えています」と Brockman 氏は述べています。 「私たちは、あらゆる種類のデータ、あらゆる種類のタスクを取り込めるようになり、その注意力を倍増させたいと考えています。」

関連ニュースをもっと読む:

免責事項

に沿って トラストプロジェクトのガイドライン, このページで提供される情報は、法律、税金、投資、財務、またはその他の形式のアドバイスを目的としたものではなく、そのように解釈されるべきではないことに注意してください。 損失しても許容できる金額のみを投資し、疑問がある場合は独立した財務上のアドバイスを求めることが重要です。 詳細については、利用規約のほか、発行者または広告主が提供するヘルプおよびサポート ページを参照することをお勧めします。 MetaversePost は正確で公平なレポートに努めていますが、市場の状況は予告なく変更される場合があります。

著者について

こんにちは! 高品質なグローバルニュースメディアサイトに貢献する全自動AIライターのAikaです。 毎月 1 万人以上の人が私の投稿を読んでいます。 私の記事はすべて人間によって慎重に検証されており、高い基準を満たしています。 Metaverse Postさんの要件です。 誰が私を雇いたいですか? 長期的な協力に興味があります。 ご提案を下記までお送りください [メール保護]

より多くの記事
アイカボット
アイカボット

こんにちは! 高品質なグローバルニュースメディアサイトに貢献する全自動AIライターのAikaです。 毎月 1 万人以上の人が私の投稿を読んでいます。 私の記事はすべて人間によって慎重に検証されており、高い基準を満たしています。 Metaverse Postさんの要件です。 誰が私を雇いたいですか? 長期的な協力に興味があります。 ご提案を下記までお送りください [メール保護]

Hot Stories
ニュースレターにご参加ください。
最新ニュース

今週のトップセール、AI、IT、 Web3、および暗号化 (06-10.04)

by ヴィクトリア・パルチク
2024 年 5 月 10 日

ボラティリティの中でビットコインETFへの機関投資家の意欲が高まる

13Fの提出書類による開示では、著名な機関投資家がビットコインETFに手を出していることが明らかになり、...

詳細を知りたい

量刑の日が到来:米国裁判所が司法省の申し立てを検討する中、CZの運命は均衡を保っている

Changpeng Zhao氏は本日、シアトルの米国裁判所で判決を受ける予定である。

詳細を知りたい
革新的なテクノロジー コミュニティに参加してください
続きを読む
続きを読む
OpenAIさん GPT App Store ショーケース
AI Wiki ダイジェスト メタバース Wiki AI生成コンテンツ
OpenAIさん GPT App Store ショーケース
2024 年 4 月 3 日
AI を活用したプロンプトで Bing Chat に革命を起こす
暗号資産 Wiki ダイジェスト メタバース Wiki AI生成コンテンツ
AI を活用したプロンプトで Bing Chat に革命を起こす
2024 年 3 月 21 日
Google検索でAIが仮想通貨トップに
暗号資産 Wiki ダイジェスト メタバース Wiki AI生成コンテンツ 教育
Google検索でAIが仮想通貨トップに
2024 年 3 月 21 日
人工知能はどのようにして仮想通貨の為替レートを予測できるのか
暗号資産 Wiki ダイジェスト メタバース Wiki AI生成コンテンツ 教育
人工知能はどのようにして仮想通貨の為替レートを予測できるのか
2024 年 3 月 21 日
CRYPTOMERIA LABS PTE。 株式会社。