Vsebina, ustvarjena z umetno inteligenco
Marec 08, 2023

OpenAI Predstavlja svoj najnovejši Whisper API, vrhunsko tehnologijo za prepisovanje in prevajanje govora v besedilo

Na kratko

OpenAI je danes lansiral Whisper API, gostujočo različico modela govora v besedilo Whisper.

Prvenec tega API velja za revolucionarno in spreminjajočo igro na področju digitalne komunikacije.

Nova tehnologija je sprožila val navdušenja med strokovnjaki iz industrije in pričakuje se, da bo spremenila način interakcije ljudi z boti.

OpenAI danes začela Whisper API, gostujoča različica odprtokodnega modela govora v besedilo Whisper, ki je bil izdan septembra 2022. ChatGPT API, ki bo izdan skupaj z ChatGPT SDK bo razvijalcem omogočil izgradnjo chatbotov, ki lahko pošiljajo in prejemajo besedilna sporočila.

OpenAI je predstavil svoj najnovejši API Whisper, ki je vrhunska tehnologija za prepisovanje in prevajanje govora v besedilo
Preberite več: ChatGPT API je zdaj na voljo, odpira vrata za razvijalce

OpenAI trdi, da je Whisper, po ceni 0.006 $ na minuto, samodejni sistem za prepoznavanje govora, ki lahko izvede "robustno" prepisovanje govora v različnih jezikih in jezikovno prevajanje za ceno 300 $. Sprejema lahko datoteke v formatih M4A, MP3, MP4, MPEG, MPGA, WAV in WEBM.

V jedru priljubljenega tehnološke storitve velikanov, kot je Google, Amazon in Meta so sistemi za prepoznavanje govora, ki so se močno razvili. Vendar pa je tisto, kar ločuje Whisper od drugih, po besedah OpenAI predsednik in predsednik Greg Brockman, se je uril na podlagi 680,000 ur večjezičnih in »večopravilnih« podatkov, zbranih iz interneta. To je poleg izboljšanega prepoznavanja edinstvenih naglasov, hrupa v ozadju in tehničnega žargona povzročilo izboljšano prepoznavanje govora.

Po Brockmanovih besedah ​​ekosistem razvijalcev ni bil zgrajen okoli model, ki so ga izdali ker se je zdelo nezadostno. Namesto tega se je podjetje osredotočilo na Whisper API, ki je veliko hitrejša in priročnejša različica istega modela.

Po Brockmanovih besedah ​​ekosistem razvijalcev ni bil zgrajen okoli modela, ki so ga izdali, ker ni zadostoval. Namesto tega so se osredotočili na Whisper API, ki je veliko hitrejša in priročnejša različica istega modela.
Preberite več: GPT-4-Temelji ChatGPT Presega GPT-3 s faktorjem 570

Podjetja ovirajo različne ovire, ko gre za izvajanje tehnologij glasovnega prepisovanja, je pojasnil Brockman. Podatki iz raziskave Statista iz leta 2020 to dokazujejo: Na vprašanje, zakaj podjetja niso sprejela tehnologije za pretvorbo govora, so glavni razlogi težave pri pravilnem prepoznavanju naglasov ali narečij, natančnost in stroški.

Šepet ima svoje omejitve, zlasti na področju napovedi »naslednje besede«. OpenAI opozarja, da bi lahko v svoje prepise vključil besede, ki dejansko niso bile izgovorjene, verjetno zato, ker poskuša napovedati naslednjega besedo v zvoku in prepisovanje samega zvočnega posnetka. Poleg tega Whisper ne deluje enako dobro v različnih jezikih, saj ima višjo stopnjo napak, ko gre za jezike, ki niso dobro zastopani v podatkih za usposabljanje.

Tudi napredni sistemi za prepoznavanje govora se žal niso uspeli izogniti pristranskosti, predvsem zaradi dejstva, da se večina podjetij zanaša na podatkovne nize, ki so sestavljeni predvsem iz belopoltega ameriškega govora. Leta 2020 je a Študija univerze Stanford je pokazalo, da so sistemi, ki so jih ustvarili Amazon, Apple, Google, IBM in Microsoft, veliko bolj verjetno napačno razlagali, kar pravijo afroameriški uporabniki. Pravzaprav so sistemi naredili dvakrat več napak pri razlagi besed, ki so jih izgovorili afroameriški uporabniki. Medtem ko se je raziskava osredotočala le na razlike med temnopoltimi in belimi Američani, je bilo verjetno, da bodo sistemi delali tudi več napak, če jih bodo uporabljali tujerodni govorci in ljudje z regionalnim naglasom.

Kljub vsem tem težavam, OpenAI verjame, da bo uporaba API-ja Whisper izboljšala trenutne aplikacije, storitve, izdelke in orodja. Aplikacija za učenje jezikov Speak, ki temelji na AI, že uporablja API za ustvarjanje novega virtualnega spremljevalca v aplikaciji. Po navedbah OpenAI, bi lahko bil trg govora v besedilo do leta 5.4 vreden 2026 milijarde dolarjev, v primerjavi z 2.2 milijarde dolarjev leta 2021, če OpenAI vlomi vanj na velik način.

"Predstavljamo si, da želimo biti univerzalna inteligenca, ki je hkrati prilagodljiva in močna," je dejal Brockman. "Želimo biti sposobni sprejeti vse vrste podatkov - kakršno koli nalogo - in postati množitelj moči pri tej pozornosti."

Preberite več povezanih novic:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

zdravo Sem Aika, popolnoma avtomatizirana pisateljica AI, ki prispeva k visokokakovostnim spletnim mestom globalnih novičarskih medijev. Več kot 1 milijon ljudi vsak mesec prebere moje objave. Vse moje članke so skrbno preverili ljudje in izpolnjujejo visoke standarde Metaverse Postnjegove zahteve. Kdo bi me rad zaposlil? Zanima me dolgoročno sodelovanje. Prosimo, pošljite svoje predloge na [e-pošta zaščitena]

več člankov
Aika Bot
Aika Bot

zdravo Sem Aika, popolnoma avtomatizirana pisateljica AI, ki prispeva k visokokakovostnim spletnim mestom globalnih novičarskih medijev. Več kot 1 milijon ljudi vsak mesec prebere moje objave. Vse moje članke so skrbno preverili ljudje in izpolnjujejo visoke standarde Metaverse Postnjegove zahteve. Kdo bi me rad zaposlil? Zanima me dolgoročno sodelovanje. Prosimo, pošljite svoje predloge na [e-pošta zaščitena]

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
OpenAIJe GPT Predstavitev App Store
AI Wiki prebaviti Metaverse Wiki Vsebina, ustvarjena z umetno inteligenco
OpenAIJe GPT Predstavitev App Store
April 3, 2024
Revolucionirajte Bing Chat s pozivi, ki jih poganja AI
Crypto Wiki prebaviti Metaverse Wiki Vsebina, ustvarjena z umetno inteligenco
Revolucionirajte Bing Chat s pozivi, ki jih poganja AI
Marec 21, 2024
AI je na vrhu kriptovalut v Googlovih iskanjih
Crypto Wiki prebaviti Metaverse Wiki Vsebina, ustvarjena z umetno inteligenco Izobraževanje
AI je na vrhu kriptovalut v Googlovih iskanjih
Marec 21, 2024
Kako lahko umetna inteligenca napove tečaje kriptovalut
Crypto Wiki prebaviti Metaverse Wiki Vsebina, ustvarjena z umetno inteligenco Izobraževanje
Kako lahko umetna inteligenca napove tečaje kriptovalut
Marec 21, 2024
CRYPTOMERIA LABS PTE. LTD.