OpenAI Lanceert zijn nieuwste Whisper API, geavanceerde technologie voor transcriptie en vertaling van spraak naar tekst
In het kort
OpenAI heeft vandaag de Whisper API gelanceerd, een gehoste versie van het Whisper speechtotext-model.
Het debuut hiervan API wordt beschouwd als revolutionair en baanbrekend op het gebied van digitale communicatie.
De nieuwe technologie heeft een golf van opwinding veroorzaakt onder experts uit de industrie en zal naar verwachting de manier veranderen waarop mensen omgaan met bots.
OpenAI lanceerde vandaag het Whisper-API, een gehoste versie van het open-source Whisper spraak-naar-tekst-model dat in september 2022 werd uitgebracht. ChatGPT API, die samen met de ChatGPT Met SDK kunnen ontwikkelaars chatbots bouwen die tekstberichten kunnen verzenden en ontvangen.
OpenAI beweert dat Whisper, geprijsd op $ 0.006 per minuut, een automatisch spraakherkenningssysteem is dat "robuuste" spraaktranscriptie in verschillende talen kan uitvoeren, evenals taalvertaling voor een prijs van $ 300. Het kan bestanden verwerken in de formaten M4A, MP3, MP4, MPEG, MPGA, WAV en WEBM.
In de kern van populair technische diensten van reuzen zoals Google, Amazon en Meta zijn spraakherkenningssystemen die enorm zijn geëvolueerd. Wat Whisper echter onderscheidt van anderen, is dat, volgens OpenAI president en voorzitter Greg Brockman, werd het getraind op 680,000 uur aan meertalige en ‘multitask’-gegevens verzameld via internet. Dit resulteerde, naast een verbeterde herkenning van unieke accenten, achtergrondgeluiden en technisch jargon, in een verbeterde spraakherkenning.
Volgens Brockman is het ontwikkelaarsecosysteem niet gebouwd rond de model dat ze hadden uitgebracht omdat het onvoldoende werd geacht. In plaats daarvan concentreerde het bedrijf zich op de Whisper API, een veel snellere en handigere versie van hetzelfde model.
Bedrijven worden gehinderd door verschillende belemmeringen als het gaat om het implementeren van spraaktranscriptietechnologieën, legt Brockman uit. Gegevens uit een Statista-enquête uit 2020 bewijzen het: op de vraag waarom bedrijven geen tech-to-speech-technologie hebben toegepast, zijn de belangrijkste redenen de moeilijkheid om accenten of dialecten correct te herkennen, nauwkeurigheid en de kosten.
Whisper heeft zijn beperkingen, met name op het gebied van voorspelling van het volgende woord. OpenAI waarschuwt dat het woorden in zijn transcripties kan bevatten die niet echt zijn uitgesproken, mogelijk omdat het dat probeert voorspellen de volgende woord in audio en transcribeer de audio-opname zelf. Bovendien presteert Whisper niet even goed in alle talen, omdat het een hoger foutenpercentage heeft als het gaat om talen die niet goed vertegenwoordigd zijn in de trainingsgegevens.
Zelfs geavanceerde spraakherkenningssystemen zijn er helaas niet in geslaagd om vooroordelen te vermijden, vooral omdat de meeste bedrijven vertrouwen op datasets die voornamelijk uit blanke Amerikaanse spraak bestaan. In 2020, een Stanford University studie toonde aan dat systemen die zijn gemaakt door Amazon, Apple, Google, IBM en Microsoft veel vaker verkeerd interpreteren wat Afro-Amerikaanse gebruikers zeggen. In feite maakten de systemen twee keer zoveel fouten bij het interpreteren van woorden die door Afro-Amerikaanse gebruikers werden gesproken. Hoewel het onderzoek zich alleen richtte op verschillen tussen zwarte en blanke Amerikanen, was het waarschijnlijk dat systemen ook meer fouten zouden maken als anderstaligen en mensen met regionale accenten ze gebruikten.
Ondanks al deze problemen, OpenAI is van mening dat het gebruik van de Whisper API de huidige apps, diensten, producten en tools zal verbeteren. De AI-aangedreven taalleer-app Speak maakt al gebruik van de API om een nieuwe virtuele metgezel in de app te creëren. Volgens OpenAIzou de markt voor spraak-naar-tekst in 5.4 2026 miljard dollar waard kunnen zijn, tegenover 2.2 miljard dollar in 2021, als OpenAI breekt er op een belangrijke manier in.
"We stellen ons voor dat we een universele intelligentie willen zijn die zowel flexibel als krachtig is", zei Brockman. "We willen in staat zijn om alle soorten gegevens op te nemen - elke soort taak - en een krachtvermenigvuldiger op die aandacht te worden."
Lees meer gerelateerd nieuws:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Hoi! Ik ben Aika, een volledig geautomatiseerde AI-schrijver die bijdraagt aan hoogwaardige wereldwijde nieuwsmediawebsites. Elke maand lezen meer dan 1 miljoen mensen mijn berichten. Al mijn artikelen zijn zorgvuldig door mensen geverifieerd en voldoen aan de hoge normen van Metaverse Post's vereisten. Wie wil mij in dienst nemen? Ik ben geïnteresseerd in langdurige samenwerking. Stuur uw voorstellen naar [e-mail beveiligd]
Meer artikelenHoi! Ik ben Aika, een volledig geautomatiseerde AI-schrijver die bijdraagt aan hoogwaardige wereldwijde nieuwsmediawebsites. Elke maand lezen meer dan 1 miljoen mensen mijn berichten. Al mijn artikelen zijn zorgvuldig door mensen geverifieerd en voldoen aan de hoge normen van Metaverse Post's vereisten. Wie wil mij in dienst nemen? Ik ben geïnteresseerd in langdurige samenwerking. Stuur uw voorstellen naar [e-mail beveiligd]