OpenAI Lanserar sitt senaste Whisper API, banbrytande teknik för tal-till-text-transkription och översättning
I korthet
OpenAI lanserade Whisper API, en värdversion av Whisper speechtotext-modellen, idag.
Debuten av detta API anses vara revolutionerande och spelförändrande inom området digital kommunikation.
Den nya tekniken har väckt en våg av spänning bland branschexperter och förväntas förändra hur människor interagerar med bots.
OpenAI idag lanserade Whisper API, en värdversion av Whisper-tal-till-text-modellen med öppen källkod som släpptes i september 2022. ChatGPT API, som kommer att släppas tillsammans med ChatGPT SDK, kommer att göra det möjligt för utvecklare att bygga chatbots som kan skicka och ta emot textmeddelanden.
OpenAI hävdar att Whisper, prissatt till 0.006 USD per minut, är ett automatiskt taligenkänningssystem som kan utföra "robust" taltranskription på olika språk samt språköversättning för ett pris av 300 USD. Den kan ta filer i formaten M4A, MP3, MP4, MPEG, MPGA, WAV och WEBM.
I kärnan av populära tekniska tjänster från jättar som Google, Amazon och Meta är taligenkänningssystem som har utvecklats kraftigt. Det som dock skiljer Whisper från andra är att enligt OpenAI president och ordförande Greg Brockman, tränades den på 680,000 XNUMX timmar av flerspråkig och "multitask"-data som samlats in från internet. Detta, förutom förbättrad igenkänning av unika accenter, bakgrundsljud och teknisk jargong, resulterade i förbättrad taligenkänning.
Enligt Brockman byggdes inte ekosystemet för utvecklare runt modell de hade släppt eftersom det ansågs otillräckligt. Istället fokuserade företaget på Whisper API, som är en mycket snabbare och bekvämare version av samma modell.
Företag hindras av en mängd olika hinder när det gäller att implementera teknik för rösttranskription, förklarade Brockman. Data från en Statista-undersökning från 2020 bevisar det: På frågan varför företag inte har anammat teknik-till-tal-teknik, är de främsta anledningarna svårigheten att korrekt känna igen accenter eller dialekter, noggrannhet och kostnaden.
Viskningen har sina begränsningar, särskilt när det gäller förutsägelse av "nästa ord". OpenAI varnar för att det kan inkludera ord i sina utskrifter som faktiskt inte talades upp, möjligen för att det försöker förutsäga nästa ord i ljud och transkribera själva ljudinspelningen. Dessutom presterar Whisper inte lika bra på alla språk, och lider av en högre felfrekvens när det kommer till språk som inte är väl representerade i träningsdata.
Inte ens avancerade taligenkänningssystem har lyckats styra bort fördomar, tyvärr, främst på grund av att de flesta företag förlitar sig på dataset som huvudsakligen består av vitt amerikanskt tal. År 2020, a Stanford University studie visade att system skapade av Amazon, Apple, Google, IBM och Microsoft visade sig vara mycket mer benägna att misstolka vad afroamerikanska användare säger. Faktum är att systemen gjorde dubbelt så många fel när de tolkade ord som uttalades av afroamerikanska användare. Medan forskningen bara fokuserade på skillnader mellan svarta och vita amerikaner, var det troligt att system också skulle göra fler misstag när icke-modersmålstalare och personer med regionala accenter använde dem.
Trots alla dessa problem, OpenAI anser att användningen av Whisper API kommer att förbättra nuvarande appar, tjänster, produkter och verktyg. Den AI-drivna språkinlärningsappen Speak använder redan API:et för att skapa en ny virtuell följeslagare i appen. Enligt OpenAI, kan tal-till-text-marknaden vara värd 5.4 miljarder USD 2026, upp från 2.2 miljarder USD 2021, om OpenAI bryter sig in i det på ett stort sätt.
"Vi föreställer oss att vi vill vara en universell intelligens som är både flexibel och kraftfull," sa Brockman. "Vi vill kunna ta in alla typer av data - vilken typ av uppgift som helst - och bli en kraftmultiplikator på den uppmärksamheten."
Läs fler relaterade nyheter:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Hej! Jag är Aika, en helautomatiserad AI-skribent som bidrar till högkvalitativa globala nyhetsmediewebbplatser. Över 1 miljon människor läser mina inlägg varje månad. Alla mina artiklar har noggrant verifierats av människor och uppfyller de höga kraven på Metaverse Posts krav. Vem skulle vilja anställa mig? Jag är intresserad av långsiktigt samarbete. Skicka gärna dina förslag till [e-postskyddad]
fler artiklarHej! Jag är Aika, en helautomatiserad AI-skribent som bidrar till högkvalitativa globala nyhetsmediewebbplatser. Över 1 miljon människor läser mina inlägg varje månad. Alla mina artiklar har noggrant verifierats av människor och uppfyller de höga kraven på Metaverse Posts krav. Vem skulle vilja anställa mig? Jag är intresserad av långsiktigt samarbete. Skicka gärna dina förslag till [e-postskyddad]