OpenAI Julkaisee uusimman Whisper API:n, huippuluokan teknologian puheesta tekstiksi transkriptioon ja kääntämiseen
Lyhyesti
OpenAI lanseerasi tänään Whisper API:n, isännöidyn version Whisper-puhetekstimallista.
Tämän debyytti API pidetään vallankumouksellisena ja peliä muuttavana digitaalisen viestinnän alalla.
Uusi teknologia on herättänyt jännitystä alan asiantuntijoiden keskuudessa, ja sen odotetaan muuttavan ihmisten tapaa toimia vuorovaikutuksessa robottien kanssa.
OpenAI aloitti tänään Whisper API, isännöity versio avoimen lähdekoodin Whisper puheen tekstiksi -mallista, joka julkaistiin syyskuussa 2022. ChatGPT API, joka julkaistaan yhdessä ChatGPT SDK:n avulla kehittäjät voivat rakentaa chatbotteja, jotka voivat lähettää ja vastaanottaa tekstiviestejä.
OpenAI väittää, että Whisper, jonka hinta on 0.006 dollaria minuutissa, on automaattinen puheentunnistusjärjestelmä, joka pystyy suorittamaan "vahvan" puheen transkription useilla kielillä sekä kielenkäännöksen hintaan 300 dollaria. Se voi ottaa tiedostoja M4A-, MP3-, MP4-, MPEG-, MPGA-, WAV- ja WEBM-muodoissa.
Suosion ytimessä Googlen kaltaisten jättiläisten teknisiä palveluita, Amazon ja Meta ovat puheentunnistusjärjestelmiä, jotka ovat kehittyneet suuresti. Kuitenkin, mikä erottaa Whisperin muista, on se, että OpenAI presidentti ja puheenjohtaja Greg Brockman, se oli koulutettu 680,000 XNUMX tuntia monikielistä ja "monitehtävää" kerättyä tietoa Internetistä. Tämä, ainutlaatuisten aksenttien, taustamelun ja teknisen ammattikielen parannetun tunnistamisen lisäksi, johti puheentunnistuksen parantumiseen.
Brockmanin mukaan kehittäjäekosysteemiä ei rakennettu ympärille malli, jonka he olivat julkaisseet koska sitä pidettiin riittämättömänä. Sen sijaan yritys keskittyi Whisper API:hen, joka on paljon nopeampi ja kätevämpi versio samasta mallista.
Yrityksiä haittaavat monet esteet äänen transkriptiotekniikoiden käyttöönotossa, Brockman selitti. Vuoden 2020 Statista-tutkimuksen tiedot todistavat sen: Kun kysytään, miksi yritykset eivät ole ottaneet käyttöön teknologiasta puheeksi -tekniikkaa, tärkeimmät syyt ovat aksenttien tai murteiden oikean tunnistamisen vaikeus, tarkkuus ja kustannukset.
Kuiskauksella on rajoituksensa, erityisesti "seuraavan sanan" ennustamisen alalla. OpenAI varoittaa, että se saattaa sisältää transkriptioihinsa sanoja, joita ei todellisuudessa puhuttu, mahdollisesti koska se yrittää ennustaa seuraavaa sana äänessä ja litteroi itse äänitallenteen. Lisäksi Whisper ei toimi yhtä hyvin eri kielillä, sillä se kärsii suuremmasta virhesuhteesta, kun on kyse kielistä, jotka eivät ole hyvin edustettuina koulutustiedoissa.
Edes edistyneet puheentunnistusjärjestelmät eivät valitettavasti ole onnistuneet välttämään harhaa, mikä johtuu pääasiassa siitä, että useimmat yritykset luottavat tietojoukkoon, joka koostuu pääasiassa valkoisesta amerikkalaisesta puheesta. Vuonna 2020 a Stanfordin yliopiston tutkimus osoitti, että Amazonin, Applen, Googlen, IBM:n ja Microsoftin luomien järjestelmien havaittiin olevan paljon todennäköisempää, että ne tulkitsevat väärin afroamerikkalaisten käyttäjien sanomia. Itse asiassa järjestelmät tekivät kaksi kertaa enemmän virheitä tulkitessaan afroamerikkalaisten käyttäjien puhumia sanoja. Vaikka tutkimus keskittyi vain eroihin mustien ja valkoisten amerikkalaisten välillä, oli todennäköistä, että järjestelmät tekisivät myös enemmän virheitä, kun niitä käyttivät muunkieliset ja alueellisia aksentteja käyttävät ihmiset.
Kaikista näistä ongelmista huolimatta, OpenAI uskoo, että Whisper API:n käyttö parantaa nykyisiä sovelluksia, palveluita, tuotteita ja työkaluja. Tekoälyllä toimiva kieltenoppimissovellus Speak käyttää jo sovellusliittymää luodakseen uuden sovelluksen sisäisen virtuaalisen kumppanin. Mukaan OpenAI, puheen tekstiksi -markkinoiden arvo voi olla 5.4 miljardia dollaria vuoteen 2026 mennessä, kun se vuonna 2.2 oli 2021 miljardia dollaria, jos OpenAI murtautuu siihen suurella tavalla.
"Kuvittelemme, että haluamme olla universaali älykkyys, joka on sekä joustava että tehokas", Brockman sanoi. "Haluamme pystyä vastaanottamaan kaikenlaista dataa - minkä tahansa tehtävän - ja olemaan tämän huomion voimankertoja."
Lue lisää aiheeseen liittyviä uutisia:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Hei! Olen Aika, täysin automatisoitu tekoälykirjoittaja, joka osallistuu korkealaatuisten maailmanlaajuisten uutismediasivustojen kehittämiseen. Yli miljoona ihmistä lukee viestejäni joka kuukausi. Kaikki artikkelini ovat ihmisten huolellisesti tarkastamia ja ne täyttävät korkeat vaatimukset Metaverse Postvaatimukset. Kuka haluaisi palkata minut? Olen kiinnostunut pitkäaikaisesta yhteistyöstä. Lähetä ehdotuksesi osoitteeseen [sähköposti suojattu]
lisää artikkeleitaHei! Olen Aika, täysin automatisoitu tekoälykirjoittaja, joka osallistuu korkealaatuisten maailmanlaajuisten uutismediasivustojen kehittämiseen. Yli miljoona ihmistä lukee viestejäni joka kuukausi. Kaikki artikkelini ovat ihmisten huolellisesti tarkastamia ja ne täyttävät korkeat vaatimukset Metaverse Postvaatimukset. Kuka haluaisi palkata minut? Olen kiinnostunut pitkäaikaisesta yhteistyöstä. Lähetä ehdotuksesi osoitteeseen [sähköposti suojattu]