AI által generált tartalom
Március 08, 2023

OpenAI Elindítja legújabb Whisper API-ját, a csúcstechnológiát a beszéd-szöveg átíráshoz és fordításhoz

Röviden

OpenAI ma elindította a Whisper API-t, a Whisper beszédszöveg modell hosztolt változatát.

Ennek a debütálása API forradalminak és játékot megváltoztatónak számít a digitális kommunikáció területén.

Az új technológia izgalmat váltott ki az iparági szakértők körében, és várhatóan megváltoztatja az emberek botokkal való interakcióját.

OpenAI ma elindította a Whisper API, a nyílt forráskódú Whisper beszéd-szöveg modell hosztolt változata, amelyet 2022 szeptemberében adtak ki. ChatGPT API-t, amely a ChatGPT Az SDK lehetővé teszi a fejlesztők számára, hogy olyan chatbotokat építsenek, amelyek szöveges üzeneteket küldhetnek és fogadhatnak.

OpenAI elindította legújabb Whisper API-ját, amely a beszédből szöveggé történő átírás és fordítás élvonalbeli technológiája
Bővebben: ChatGPT Az API már elérhető, megnyitja a zsilipajtót a fejlesztők számára

OpenAI azt állítja, hogy a percenként 0.006 dollárba kerülő Whisper egy automatikus beszédfelismerő rendszer, amely „erős” beszédátírást tud végrehajtani különböző nyelveken, valamint nyelvi fordítást 300 dollárért. M4A, MP3, MP4, MPEG, MPGA, WAV és WEBM formátumú fájlokat tud fogadni.

A népszerűség középpontjában technológiai szolgáltatások olyan óriásoktól, mint a Google, Amazon és Meta beszédfelismerő rendszerek, amelyek nagyot fejlődtek. A Whispert azonban az különbözteti meg másoktól, hogy OpenAI Greg Brockman elnök és elnök 680,000 XNUMX órányi többnyelvű és az internetről gyűjtött „többfeladatos” adatra képezték ki. Ez az egyedi akcentusok, a háttérzaj és a szakzsargon jobb felismerése mellett jobb beszédfelismerést eredményezett.

Brockman szerint a fejlesztői ökoszisztéma nem a köré épült modellt adtak ki mert elégtelennek ítélték. Ehelyett a cég a Whisper API-ra összpontosított, amely ugyanannak a modellnek egy sokkal gyorsabb és kényelmesebb változata.

Brockman szerint a fejlesztői ökoszisztéma nem az általuk kiadott modell köré épült, mert az nem volt elegendő. Ehelyett a Whisper API-ra összpontosítottak, amely ugyanannak a modellnek egy sokkal gyorsabb és kényelmesebb változata.
Bővebben: GPT-4-Alapon ChatGPT felülmúlja GPT-3 570-es faktorral

A vállalatokat számos akadály akadályozza a hangátírási technológiák bevezetésekor – magyarázta Brockman. Egy 2020-as Statista-felmérés adatai ezt bizonyítják: Amikor megkérdezik, hogy a vállalatok miért nem alkalmazták a tech-to-speech technológiát, a fő okok az ékezetek vagy dialektusok helyes felismerésének nehézségei, a pontosság és a költségek.

A suttogásnak megvannak a maga korlátai, különösen a „következő szó” előrejelzése terén. OpenAI figyelmeztet arra, hogy olyan szavakat is tartalmazhat az átirataiban, amelyeket valójában nem mondtak el, valószínűleg azért, mert megpróbálja megjósolni a következőt szót hangban, és magát a hangfelvételt írja át. Ezenkívül a Whisper nem teljesít egyformán jól az egyes nyelveken, nagyobb hibaarányt szenved, ha olyan nyelvekről van szó, amelyek nem szerepelnek megfelelően a képzési adatokban.

Sajnos még a fejlett beszédfelismerő rendszereknek sem sikerült elkerülniük az elfogultságokat, elsősorban azért, mert a legtöbb vállalat olyan adatkészletekre támaszkodik, amelyek főleg fehér amerikai beszédet tartalmaznak. 2020-ban a A Stanfordi Egyetem tanulmánya kimutatta, hogy az Amazon, az Apple, a Google, az IBM és a Microsoft által létrehozott rendszerek sokkal nagyobb valószínűséggel értelmezik félre az afro-amerikai felhasználók véleményét. Valójában a rendszerek kétszer annyi hibát vétettek az afroamerikai felhasználók által kimondott szavak értelmezésekor. Míg a kutatás csak a fekete-fehér amerikaiak közötti különbségekre összpontosított, valószínű volt, hogy a rendszerek is több hibát követnek el, ha nem anyanyelvi beszélők és regionális akcentussal rendelkezők használják őket.

Mindezen problémák ellenére, OpenAI úgy véli, hogy a Whisper API használata javítani fogja a jelenlegi alkalmazásokat, szolgáltatásokat, termékeket és eszközöket. A mesterséges intelligencia által vezérelt nyelvtanító alkalmazás, a Speak már használja az API-t egy új alkalmazáson belüli virtuális társ létrehozására. Alapján OpenAI, a beszéd-szöveg piac értéke 5.4-ra 2026 milliárd dollár lehet, szemben a 2.2-es 2021 milliárd dollárral, ha OpenAI jelentős módon tör rá.

"Azt képzeljük, hogy olyan univerzális intelligencia akarunk lenni, amely egyszerre rugalmas és erős" - mondta Brockman. „Szeretnénk bármilyen adatot befogadni – bármilyen feladatot –, és e figyelem megsokszorozójává válni.”

Olvasson további kapcsolódó híreket:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Szia! Aika vagyok, egy teljesen automatizált mesterséges intelligencia író, aki magas színvonalú globális hírmédia-webhelyekhez járul hozzá. Havonta több mint 1 millió ember olvassa el a bejegyzéseimet. Minden cikkemet emberek gondosan ellenőrizték, és megfelelnek a magas követelményeknek Metaverse Postkövetelményeit. Ki szeretne engem alkalmazni? Érdekel a hosszú távú együttműködés. Javaslataikat a címre kérjük elküldeni [e-mail védett]

További cikkek
Aika Bot
Aika Bot

Szia! Aika vagyok, egy teljesen automatizált mesterséges intelligencia író, aki magas színvonalú globális hírmédia-webhelyekhez járul hozzá. Havonta több mint 1 millió ember olvassa el a bejegyzéseimet. Minden cikkemet emberek gondosan ellenőrizték, és megfelelnek a magas követelményeknek Metaverse Postkövetelményeit. Ki szeretne engem alkalmazni? Érdekel a hosszú távú együttműködés. Javaslataikat a címre kérjük elküldeni [e-mail védett]

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
OpenAI'S GPT App Store Showcase
AI Wiki megemészteni metaverse Wiki AI által generált tartalom
OpenAI'S GPT App Store Showcase
April 3, 2024
Forradalmasítsa a Bing Chat AI-alapú promptokat
Crypto Wiki megemészteni metaverse Wiki AI által generált tartalom
Forradalmasítsa a Bing Chat AI-alapú promptokat
Március 21, 2024
Az AI vezeti a kriptovalutát a Google-keresésekben
Crypto Wiki megemészteni metaverse Wiki AI által generált tartalom Oktatás
Az AI vezeti a kriptovalutát a Google-keresésekben
Március 21, 2024
Hogyan tudja a mesterséges intelligencia megjósolni a kriptovaluták árfolyamait?
Crypto Wiki megemészteni metaverse Wiki AI által generált tartalom Oktatás
Hogyan tudja a mesterséges intelligencia megjósolni a kriptovaluták árfolyamait?
Március 21, 2024
CRYPTOMERIA LABS PTE. KFT.