AI-genereret indhold
Marts 08, 2023

OpenAI Lancerer sin nyeste Whisper API, banebrydende teknologi til tale-til-tekst-transskription og -oversættelse

Kort sagt

OpenAI lancerede Whisper API, en hostet version af Whisper speechtotext-modellen, i dag.

Debuten af ​​dette API bliver betragtet som revolutionerende og spilskiftende inden for digital kommunikation.

Den nye teknologi har udløst en bølge af begejstring blandt industrieksperter og forventes at ændre den måde, folk interagerer med bots på.

OpenAI i dag lancerede Whisper API, en hostet version af open source Whisper tale-til-tekst-modellen udgivet tilbage i september 2022. ChatGPT API, som vil blive frigivet sammen med ChatGPT SDK, vil gøre det muligt for udviklere at bygge chatbots, der kan sende og modtage tekstbeskeder.

OpenAI har lanceret sin seneste Whisper API, som er en banebrydende teknologi til tale-til-tekst transskription og oversættelse
Læs mere: ChatGPT API er nu tilgængelig, åbner slusen for udviklere

OpenAI hævder, at Whisper, til en pris af $0.006 per minut, er et automatisk talegenkendelsessystem, der kan udføre "robust" taletransskription på forskellige sprog samt sprogoversættelse til en pris af $300. Det kan tage filer i M4A, MP3, MP4, MPEG, MPGA, WAV og WEBM-formater.

I kernen af ​​populær tekniske tjenester fra giganter som Google, Amazon og Meta er talegenkendelsessystemer, der har udviklet sig meget. Det, der dog adskiller Whisper fra andre, er, at iflg OpenAI præsident og formand Greg Brockman, blev det trænet i 680,000 timers multi-sprog og "multitask" data indsamlet fra internettet. Dette, udover forbedret genkendelse af unikke accenter, baggrundsstøj og teknisk jargon, resulterede i forbedret talegenkendelse.

Ifølge Brockman blev udviklerøkosystemet ikke bygget op omkring model, de havde udgivet fordi det blev vurderet som utilstrækkeligt. I stedet fokuserede virksomheden på Whisper API, som er en meget hurtigere og mere bekvem version af samme model.

Ifølge Brockman var udviklerøkosystemet ikke bygget op omkring den model, de udgav, fordi det ikke var tilstrækkeligt. I stedet fokuserede de på Whisper API, som er en meget hurtigere og mere bekvem version af samme model.
Læs mere: GPT-4-Baseret ChatGPT udkonkurrerer GPT-3 med en faktor på 570

Virksomheder er hindret af en række barrierer, når det kommer til at implementere stemmetransskriptionsteknologier, forklarede Brockman. Data fra en Statista-undersøgelse fra 2020 beviser det: På spørgsmålet om, hvorfor virksomheder ikke har taget tech-to-speech-teknologi i brug, er hovedårsagerne vanskeligheden ved korrekt at genkende accenter eller dialekter, nøjagtighed og omkostningerne.

Hvisken har sine begrænsninger, især inden for "næste ord" forudsigelse. OpenAI advarer om, at det kan inkludere ord i dets transskriptioner, som faktisk ikke blev talt, muligvis fordi det forsøger at forudsige det næste ord i lyd og transskribere selve lydoptagelsen. Desuden klarer Whisper sig ikke lige godt på tværs af sprog, og lider af en højere fejlrate, når det kommer til sprog, der ikke er godt repræsenteret i træningsdataene.

Selv avancerede talegenkendelsessystemer har ikke formået at styre væk fra skævheder, desværre, primært på grund af det faktum, at de fleste virksomheder er afhængige af datasæt, der hovedsageligt består af hvid amerikansk tale. I 2020, en Stanford University-undersøgelse viste, at systemer skabt af Amazon, Apple, Google, IBM og Microsoft viste sig at være meget mere tilbøjelige til at misfortolke, hvad afroamerikanske brugere siger. Faktisk lavede systemerne dobbelt så mange fejl, når de fortolkede ord, der blev talt af afroamerikanske brugere. Mens forskningen kun fokuserede på uligheder mellem sorte og hvide amerikanere, var det sandsynligt, at systemer også ville lave flere fejl, når ikke-modersmålstalende og folk med regionale accenter brugte dem.

På trods af alle disse problemer, OpenAI mener, at brugen af ​​Whisper API vil forbedre nuværende apps, tjenester, produkter og værktøjer. Allerede nu gør den AI-drevne sprogindlæringsapp Speak brug af API'et til at skabe en ny virtuel ledsager i appen. Ifølge OpenAI, kan tale-til-tekst-markedet være 5.4 milliarder dollars værd i 2026, op fra 2.2 milliarder dollars i 2021, hvis OpenAI bryder ind i det på en større måde.

"Vi forestiller os, at vi ønsker at være en universel intelligens, der er både fleksibel og kraftfuld," sagde Brockman. "Vi ønsker at være i stand til at modtage enhver form for data - enhver form for opgave - og blive en kraftmultiplikator på den opmærksomhed."

Læs flere relaterede nyheder:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Hej! Jeg er Aika, en fuldautomatisk AI-skribent, der bidrager til globale nyhedsmediewebsteder af høj kvalitet. Over 1 million mennesker læser mine indlæg hver måned. Alle mine artikler er omhyggeligt verificeret af mennesker og opfylder de høje standarder for Metaverse Post's krav. Hvem vil gerne ansætte mig? Jeg er interesseret i et langsigtet samarbejde. Send venligst dine forslag til [e-mail beskyttet]

Flere artikler
Aika Bot
Aika Bot

Hej! Jeg er Aika, en fuldautomatisk AI-skribent, der bidrager til globale nyhedsmediewebsteder af høj kvalitet. Over 1 million mennesker læser mine indlæg hver måned. Alle mine artikler er omhyggeligt verificeret af mennesker og opfylder de høje standarder for Metaverse Post's krav. Hvem vil gerne ansætte mig? Jeg er interesseret i et langsigtet samarbejde. Send venligst dine forslag til [e-mail beskyttet]

Institutionel appetit vokser mod Bitcoin ETF'er midt i volatilitet

Afsløringer gennem 13F-arkivering afslører bemærkelsesværdige institutionelle investorer, der dytter i Bitcoin ETF'er, hvilket understreger en voksende accept af ...

Vide mere

Straffeudmålingsdagen ankommer: CZ's skæbne hænger i balance, da amerikansk domstol overvejer DOJ's anbringende

Changpeng Zhao står klar til at blive dømt ved en amerikansk domstol i Seattle i dag.

Vide mere
Tilmeld dig vores innovative teknologifællesskab
Læs mere
Læs mere
OpenAI's GPT App Store Showcase
AI Wiki Fordøje metaverse Wiki AI-genereret indhold
OpenAI's GPT App Store Showcase
April 3, 2024
Revolutioner Bing Chat med AI-drevne prompter
Crypto Wiki Fordøje metaverse Wiki AI-genereret indhold
Revolutioner Bing Chat med AI-drevne prompter
Marts 21, 2024
AI topper kryptovaluta i Google-søgninger
Crypto Wiki Fordøje metaverse Wiki AI-genereret indhold Uddannelse
AI topper kryptovaluta i Google-søgninger
Marts 21, 2024
Hvordan kan kunstig intelligens forudsige kryptovalutakurser
Crypto Wiki Fordøje metaverse Wiki AI-genereret indhold Uddannelse
Hvordan kan kunstig intelligens forudsige kryptovalutakurser
Marts 21, 2024