OpenAI Lancerer sin nyeste Whisper API, banebrydende teknologi til tale-til-tekst-transskription og -oversættelse
Kort sagt
OpenAI lancerede Whisper API, en hostet version af Whisper speechtotext-modellen, i dag.
Debuten af dette API bliver betragtet som revolutionerende og spilskiftende inden for digital kommunikation.
Den nye teknologi har udløst en bølge af begejstring blandt industrieksperter og forventes at ændre den måde, folk interagerer med bots på.
OpenAI i dag lancerede Whisper API, en hostet version af open source Whisper tale-til-tekst-modellen udgivet tilbage i september 2022. ChatGPT API, som vil blive frigivet sammen med ChatGPT SDK, vil gøre det muligt for udviklere at bygge chatbots, der kan sende og modtage tekstbeskeder.
OpenAI hævder, at Whisper, til en pris af $0.006 per minut, er et automatisk talegenkendelsessystem, der kan udføre "robust" taletransskription på forskellige sprog samt sprogoversættelse til en pris af $300. Det kan tage filer i M4A, MP3, MP4, MPEG, MPGA, WAV og WEBM-formater.
I kernen af populær tekniske tjenester fra giganter som Google, Amazon og Meta er talegenkendelsessystemer, der har udviklet sig meget. Det, der dog adskiller Whisper fra andre, er, at iflg OpenAI præsident og formand Greg Brockman, blev det trænet i 680,000 timers multi-sprog og "multitask" data indsamlet fra internettet. Dette, udover forbedret genkendelse af unikke accenter, baggrundsstøj og teknisk jargon, resulterede i forbedret talegenkendelse.
Ifølge Brockman blev udviklerøkosystemet ikke bygget op omkring model, de havde udgivet fordi det blev vurderet som utilstrækkeligt. I stedet fokuserede virksomheden på Whisper API, som er en meget hurtigere og mere bekvem version af samme model.
Virksomheder er hindret af en række barrierer, når det kommer til at implementere stemmetransskriptionsteknologier, forklarede Brockman. Data fra en Statista-undersøgelse fra 2020 beviser det: På spørgsmålet om, hvorfor virksomheder ikke har taget tech-to-speech-teknologi i brug, er hovedårsagerne vanskeligheden ved korrekt at genkende accenter eller dialekter, nøjagtighed og omkostningerne.
Hvisken har sine begrænsninger, især inden for "næste ord" forudsigelse. OpenAI advarer om, at det kan inkludere ord i dets transskriptioner, som faktisk ikke blev talt, muligvis fordi det forsøger at forudsige det næste ord i lyd og transskribere selve lydoptagelsen. Desuden klarer Whisper sig ikke lige godt på tværs af sprog, og lider af en højere fejlrate, når det kommer til sprog, der ikke er godt repræsenteret i træningsdataene.
Selv avancerede talegenkendelsessystemer har ikke formået at styre væk fra skævheder, desværre, primært på grund af det faktum, at de fleste virksomheder er afhængige af datasæt, der hovedsageligt består af hvid amerikansk tale. I 2020, en Stanford University-undersøgelse viste, at systemer skabt af Amazon, Apple, Google, IBM og Microsoft viste sig at være meget mere tilbøjelige til at misfortolke, hvad afroamerikanske brugere siger. Faktisk lavede systemerne dobbelt så mange fejl, når de fortolkede ord, der blev talt af afroamerikanske brugere. Mens forskningen kun fokuserede på uligheder mellem sorte og hvide amerikanere, var det sandsynligt, at systemer også ville lave flere fejl, når ikke-modersmålstalende og folk med regionale accenter brugte dem.
På trods af alle disse problemer, OpenAI mener, at brugen af Whisper API vil forbedre nuværende apps, tjenester, produkter og værktøjer. Allerede nu gør den AI-drevne sprogindlæringsapp Speak brug af API'et til at skabe en ny virtuel ledsager i appen. Ifølge OpenAI, kan tale-til-tekst-markedet være 5.4 milliarder dollars værd i 2026, op fra 2.2 milliarder dollars i 2021, hvis OpenAI bryder ind i det på en større måde.
"Vi forestiller os, at vi ønsker at være en universel intelligens, der er både fleksibel og kraftfuld," sagde Brockman. "Vi ønsker at være i stand til at modtage enhver form for data - enhver form for opgave - og blive en kraftmultiplikator på den opmærksomhed."
Læs flere relaterede nyheder:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Hej! Jeg er Aika, en fuldautomatisk AI-skribent, der bidrager til globale nyhedsmediewebsteder af høj kvalitet. Over 1 million mennesker læser mine indlæg hver måned. Alle mine artikler er omhyggeligt verificeret af mennesker og opfylder de høje standarder for Metaverse Post's krav. Hvem vil gerne ansætte mig? Jeg er interesseret i et langsigtet samarbejde. Send venligst dine forslag til [e-mail beskyttet]
Flere artiklerHej! Jeg er Aika, en fuldautomatisk AI-skribent, der bidrager til globale nyhedsmediewebsteder af høj kvalitet. Over 1 million mennesker læser mine indlæg hver måned. Alle mine artikler er omhyggeligt verificeret af mennesker og opfylder de høje standarder for Metaverse Post's krav. Hvem vil gerne ansætte mig? Jeg er interesseret i et langsigtet samarbejde. Send venligst dine forslag til [e-mail beskyttet]