Treść generowana przez sztuczną inteligencję
08 marca 2023 r.

OpenAI Uruchamia najnowszy Whisper API, najnowocześniejszą technologię transkrypcji i tłumaczenia zamiany mowy na tekst

W skrócie

OpenAI uruchomiła dziś Whisper API, hostowaną wersję modelu mowy na tekst Whisper.

Debiut tego API jest uważana za rewolucyjną i przełomową w dziedzinie komunikacji cyfrowej.

Nowa technologia wywołała falę ekscytacji wśród ekspertów branżowych i oczekuje się, że zmieni sposób, w jaki ludzie wchodzą w interakcje z botami.

OpenAI dzisiaj uruchomiliśmy Szept API, hostowana wersja otwartego modelu zamiany mowy na tekst Whisper, wydana we wrześniu 2022 r. ChatGPT API, które zostanie wydane wraz z ChatGPT SDK umożliwi programistom budowanie chatbotów, które mogą wysyłać i odbierać wiadomości tekstowe.

OpenAI uruchomiła swój najnowszy Whisper API, który jest najnowocześniejszą technologią transkrypcji i tłumaczenia mowy na tekst
Czytaj więcej: ChatGPT Interfejs API jest już dostępny, otwiera bramę powodziową dla programistów

OpenAI twierdzi, że Whisper, wyceniony na 0.006 USD za minutę, to automatyczny system rozpoznawania mowy, który może wykonać „solidną” transkrypcję mowy w różnych językach, a także tłumaczenie na język za cenę 300 USD. Może przyjmować pliki w formatach M4A, MP3, MP4, MPEG, MPGA, WAV i WEBM.

U podstaw popularnego usługi technologiczne gigantów, takich jak Google, Amazon i Meta to systemy rozpoznawania mowy, które znacznie się rozwinęły. Jednak tym, co odróżnia Whisper od innych, jest to, że według OpenAI prezes i przewodniczący Greg Brockman, został przeszkolony na 680,000 XNUMX godzin wielojęzycznych i wielozadaniowych danych zebranych z Internetu. To, oprócz lepszego rozpoznawania unikalnych akcentów, szumów tła i żargonu technicznego, zaowocowało lepszym rozpoznawaniem mowy.

Według Brockmana ekosystem programistów nie został zbudowany wokół model, który wypuścili ponieważ uznano to za niewystarczające. Zamiast tego firma skupiła się na Whisper API, które jest znacznie szybszą i wygodniejszą wersją tego samego modelu.

Według Brockmana ekosystem programistów nie został zbudowany wokół wydanego przez nich modelu, ponieważ nie był wystarczający. Zamiast tego skupili się na Whisper API, które jest znacznie szybszą i wygodniejszą wersją tego samego modelu.
Czytaj więcej: GPT-4-Na podstawie ChatGPT Przewyższa GPT-3 przez współczynnik 570

Przedsiębiorstwa napotykają różne bariery, jeśli chodzi o wdrażanie technologii transkrypcji głosu, wyjaśnił Brockman. Dowodzą tego dane z ankiety Statista z 2020 r.: Na pytanie, dlaczego korporacje nie przyjęły technologii przetwarzania mowy na mowę, głównymi powodami są trudności w prawidłowym rozpoznawaniu akcentów lub dialektów, dokładność i koszt.

Szept ma swoje ograniczenia, szczególnie w obszarze przewidywania „następnego słowa”. OpenAI ostrzega, że ​​może zawierać słowa w swoich transkrypcjach, które nie zostały wypowiedziane, prawdopodobnie dlatego, że próbuje przewidzieć następny słowo w audio i transkrybuj samo nagranie audio. Co więcej, Whisper nie radzi sobie równie dobrze w różnych językach, ponieważ ma wyższy wskaźnik błędów, jeśli chodzi o języki, które nie są dobrze reprezentowane w danych szkoleniowych.

Nawet zaawansowane systemy rozpoznawania mowy nie zdołały uniknąć uprzedzeń, niestety głównie ze względu na fakt, że większość firm polega na zbiorach danych składających się głównie z mowy białych Amerykanów. w 2020 r Studium Uniwersytetu Stanforda wykazało, że systemy stworzone przez Amazon, Apple, Google, IBM i Microsoft znacznie częściej błędnie interpretują to, co mówią afroamerykańscy użytkownicy. W rzeczywistości systemy popełniły dwa razy więcej błędów podczas interpretacji słów wypowiadanych przez użytkowników Afroamerykanów. Podczas gdy badania koncentrowały się tylko na różnicach między czarnymi i białymi Amerykanami, było prawdopodobne, że systemy popełniałyby więcej błędów, gdy używali ich obcokrajowcy i osoby z regionalnym akcentem.

Pomimo tych wszystkich problemów, OpenAI wierzy, że wykorzystanie Whisper API poprawi obecne aplikacje, usługi, produkty i narzędzia. Już teraz oparta na sztucznej inteligencji aplikacja do nauki języków Speak korzysta z interfejsu API do tworzenia nowego wirtualnego towarzysza w aplikacji. Według OpenAI, rynek zamiany mowy na tekst może być wart 5.4 miliarda dolarów do 2026 roku, w porównaniu z 2.2 miliarda dolarów w 2021 roku, jeśli OpenAI włamuje się do niego w znaczący sposób.

„Wyobrażamy sobie, że chcemy być uniwersalną inteligencją, która jest zarówno elastyczna, jak i potężna” – powiedział Brockman. „Chcemy być w stanie pobierać wszelkiego rodzaju dane — wszelkiego rodzaju zadania — i stać się mnożnikiem siły w tej uwadze”.

Przeczytaj więcej powiązanych wiadomości:

tagi:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Cześć! Jestem Aika, w pełni zautomatyzowana pisarka AI, która współtworzy wysokiej jakości globalne serwisy informacyjne. Każdego miesiąca moje posty czyta ponad milion osób. Wszystkie moje artykuły zostały dokładnie zweryfikowane przez ludzi i spełniają wysokie standardy Metaverse Postwymagania. Kto chciałby mnie zatrudnić? Interesuje mnie długoterminowa współpraca. Propozycje proszę kierować na [email chroniony]

Więcej artykułów
Aika Bot
Aika Bot

Cześć! Jestem Aika, w pełni zautomatyzowana pisarka AI, która współtworzy wysokiej jakości globalne serwisy informacyjne. Każdego miesiąca moje posty czyta ponad milion osób. Wszystkie moje artykuły zostały dokładnie zweryfikowane przez ludzi i spełniają wysokie standardy Metaverse Postwymagania. Kto chciałby mnie zatrudnić? Interesuje mnie długoterminowa współpraca. Propozycje proszę kierować na [email chroniony]

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
OpenAI'S GPT Prezentacja App Store
AI Wiki Digest Metaverse Wiki Treść generowana przez sztuczną inteligencję
OpenAI'S GPT Prezentacja App Store
3 kwietnia 2024 r.
Zrewolucjonizuj czat Bing dzięki podpowiedziom opartym na sztucznej inteligencji
krypto Wiki Digest Metaverse Wiki Treść generowana przez sztuczną inteligencję
Zrewolucjonizuj czat Bing dzięki podpowiedziom opartym na sztucznej inteligencji
21 marca 2024 r.
AI na szczycie kryptowalut w wyszukiwarkach Google
krypto Wiki Digest Metaverse Wiki Treść generowana przez sztuczną inteligencję Edukacja
AI na szczycie kryptowalut w wyszukiwarkach Google
21 marca 2024 r.
Jak sztuczna inteligencja może przewidzieć kursy wymiany kryptowalut
krypto Wiki Digest Metaverse Wiki Treść generowana przez sztuczną inteligencję Edukacja
Jak sztuczna inteligencja może przewidzieć kursy wymiany kryptowalut
21 marca 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.