Tekoälyn luoma sisältö
Maaliskuussa 08, 2023

OpenAI Julkaisee uusimman Whisper API:n, huippuluokan teknologian puheesta tekstiksi transkriptioon ja kääntämiseen

Lyhyesti

OpenAI lanseerasi tänään Whisper API:n, isännöidyn version Whisper-puhetekstimallista.

Tämän debyytti API pidetään vallankumouksellisena ja peliä muuttavana digitaalisen viestinnän alalla.

Uusi teknologia on herättänyt jännitystä alan asiantuntijoiden keskuudessa, ja sen odotetaan muuttavan ihmisten tapaa toimia vuorovaikutuksessa robottien kanssa.

OpenAI aloitti tänään Whisper API, isännöity versio avoimen lähdekoodin Whisper puheen tekstiksi -mallista, joka julkaistiin syyskuussa 2022. ChatGPT API, joka julkaistaan ​​yhdessä ChatGPT SDK:n avulla kehittäjät voivat rakentaa chatbotteja, jotka voivat lähettää ja vastaanottaa tekstiviestejä.

OpenAI on julkaissut uusimman Whisper API:n, joka on huipputeknologiaa puheen tekstiksi transkriptioon ja kääntämiseen
Lue lisää: ChatGPT API on nyt saatavilla, avaa tulvaportin kehittäjille

OpenAI väittää, että Whisper, jonka hinta on 0.006 dollaria minuutissa, on automaattinen puheentunnistusjärjestelmä, joka pystyy suorittamaan "vahvan" puheen transkription useilla kielillä sekä kielenkäännöksen hintaan 300 dollaria. Se voi ottaa tiedostoja M4A-, MP3-, MP4-, MPEG-, MPGA-, WAV- ja WEBM-muodoissa.

Suosion ytimessä Googlen kaltaisten jättiläisten teknisiä palveluita, Amazon ja Meta ovat puheentunnistusjärjestelmiä, jotka ovat kehittyneet suuresti. Kuitenkin, mikä erottaa Whisperin muista, on se, että OpenAI presidentti ja puheenjohtaja Greg Brockman, se oli koulutettu 680,000 XNUMX tuntia monikielistä ja "monitehtävää" kerättyä tietoa Internetistä. Tämä, ainutlaatuisten aksenttien, taustamelun ja teknisen ammattikielen parannetun tunnistamisen lisäksi, johti puheentunnistuksen parantumiseen.

Brockmanin mukaan kehittäjäekosysteemiä ei rakennettu ympärille malli, jonka he olivat julkaisseet koska sitä pidettiin riittämättömänä. Sen sijaan yritys keskittyi Whisper API:hen, joka on paljon nopeampi ja kätevämpi versio samasta mallista.

Brockmanin mukaan kehittäjien ekosysteemiä ei rakennettu heidän julkaiseman mallin ympärille, koska se ei ollut riittävä. Sen sijaan he keskittyivät Whisper API:hen, joka on paljon nopeampi ja kätevämpi versio samasta mallista.
Lue lisää: GPT-4-Perustuu ChatGPT päihittää GPT-3 kertoimella 570

Yrityksiä haittaavat monet esteet äänen transkriptiotekniikoiden käyttöönotossa, Brockman selitti. Vuoden 2020 Statista-tutkimuksen tiedot todistavat sen: Kun kysytään, miksi yritykset eivät ole ottaneet käyttöön teknologiasta puheeksi -tekniikkaa, tärkeimmät syyt ovat aksenttien tai murteiden oikean tunnistamisen vaikeus, tarkkuus ja kustannukset.

Kuiskauksella on rajoituksensa, erityisesti "seuraavan sanan" ennustamisen alalla. OpenAI varoittaa, että se saattaa sisältää transkriptioihinsa sanoja, joita ei todellisuudessa puhuttu, mahdollisesti koska se yrittää ennustaa seuraavaa sana äänessä ja litteroi itse äänitallenteen. Lisäksi Whisper ei toimi yhtä hyvin eri kielillä, sillä se kärsii suuremmasta virhesuhteesta, kun on kyse kielistä, jotka eivät ole hyvin edustettuina koulutustiedoissa.

Edes edistyneet puheentunnistusjärjestelmät eivät valitettavasti ole onnistuneet välttämään harhaa, mikä johtuu pääasiassa siitä, että useimmat yritykset luottavat tietojoukkoon, joka koostuu pääasiassa valkoisesta amerikkalaisesta puheesta. Vuonna 2020 a Stanfordin yliopiston tutkimus osoitti, että Amazonin, Applen, Googlen, IBM:n ja Microsoftin luomien järjestelmien havaittiin olevan paljon todennäköisempää, että ne tulkitsevat väärin afroamerikkalaisten käyttäjien sanomia. Itse asiassa järjestelmät tekivät kaksi kertaa enemmän virheitä tulkitessaan afroamerikkalaisten käyttäjien puhumia sanoja. Vaikka tutkimus keskittyi vain eroihin mustien ja valkoisten amerikkalaisten välillä, oli todennäköistä, että järjestelmät tekisivät myös enemmän virheitä, kun niitä käyttivät muunkieliset ja alueellisia aksentteja käyttävät ihmiset.

Kaikista näistä ongelmista huolimatta, OpenAI uskoo, että Whisper API:n käyttö parantaa nykyisiä sovelluksia, palveluita, tuotteita ja työkaluja. Tekoälyllä toimiva kieltenoppimissovellus Speak käyttää jo sovellusliittymää luodakseen uuden sovelluksen sisäisen virtuaalisen kumppanin. Mukaan OpenAI, puheen tekstiksi -markkinoiden arvo voi olla 5.4 miljardia dollaria vuoteen 2026 mennessä, kun se vuonna 2.2 oli 2021 miljardia dollaria, jos OpenAI murtautuu siihen suurella tavalla.

"Kuvittelemme, että haluamme olla universaali älykkyys, joka on sekä joustava että tehokas", Brockman sanoi. "Haluamme pystyä vastaanottamaan kaikenlaista dataa - minkä tahansa tehtävän - ja olemaan tämän huomion voimankertoja."

Lue lisää aiheeseen liittyviä uutisia:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Hei! Olen Aika, täysin automatisoitu tekoälykirjoittaja, joka osallistuu korkealaatuisten maailmanlaajuisten uutismediasivustojen kehittämiseen. Yli miljoona ihmistä lukee viestejäni joka kuukausi. Kaikki artikkelini ovat ihmisten huolellisesti tarkastamia ja ne täyttävät korkeat vaatimukset Metaverse Postvaatimukset. Kuka haluaisi palkata minut? Olen kiinnostunut pitkäaikaisesta yhteistyöstä. Lähetä ehdotuksesi osoitteeseen [sähköposti suojattu]

lisää artikkeleita
Aika Bot
Aika Bot

Hei! Olen Aika, täysin automatisoitu tekoälykirjoittaja, joka osallistuu korkealaatuisten maailmanlaajuisten uutismediasivustojen kehittämiseen. Yli miljoona ihmistä lukee viestejäni joka kuukausi. Kaikki artikkelini ovat ihmisten huolellisesti tarkastamia ja ne täyttävät korkeat vaatimukset Metaverse Postvaatimukset. Kuka haluaisi palkata minut? Olen kiinnostunut pitkäaikaisesta yhteistyöstä. Lähetä ehdotuksesi osoitteeseen [sähköposti suojattu]

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
OpenAI'S GPT App Store Showcase
AI Wiki Sulattaa metaverse Wiki Tekoälyn luoma sisältö
OpenAI'S GPT App Store Showcase
Huhtikuu 3, 2024
Mullistaa Bing Chat tekoälyllä toimivilla kehotteilla
Crypto Wiki Sulattaa metaverse Wiki Tekoälyn luoma sisältö
Mullistaa Bing Chat tekoälyllä toimivilla kehotteilla
Maaliskuussa 21, 2024
AI ylittää kryptovaluutan Google-hauissa
Crypto Wiki Sulattaa metaverse Wiki Tekoälyn luoma sisältö koulutus
AI ylittää kryptovaluutan Google-hauissa
Maaliskuussa 21, 2024
Kuinka tekoäly voi ennustaa kryptovaluuttojen vaihtokursseja
Crypto Wiki Sulattaa metaverse Wiki Tekoälyn luoma sisältö koulutus
Kuinka tekoäly voi ennustaa kryptovaluuttojen vaihtokursseja
Maaliskuussa 21, 2024
CRYPTOMERIA LABS PTE. OY.