OpenAI Izlaiž savu jaunāko Whisper API, visprogresīvāko tehnoloģiju runas pārveidošanai tekstā transkripcijai un tulkošanai
Īsumā
OpenAI šodien uzsāka Whisper API — Whisper runasteksta modeļa mitinātu versiju.
Šī debija API tiek uzskatīta par revolucionāru un spēli mainošu digitālās komunikācijas jomā.
Jaunā tehnoloģija ir izraisījusi sajūsmas vilni nozares ekspertu vidū, un ir paredzams, ka tā mainīs veidu, kā cilvēki mijiedarbojas ar robotprogrammatūru.
OpenAI šodien uzsāka Whisper API, atvērtā pirmkoda modeļa Whisper runas pārveidošanai tekstā mitināta versija, kas tika izlaista 2022. gada septembrī. ChatGPT API, kas tiks izlaista kopā ar ChatGPT SDK ļaus izstrādātājiem izveidot tērzēšanas robotus, kas var nosūtīt un saņemt īsziņas.
OpenAI apgalvo, ka Whisper, kuras cena ir USD 0.006 minūtē, ir automātiska runas atpazīšanas sistēma, kas var veikt „izturīgu” runas transkripciju dažādās valodās, kā arī valodas tulkošanu par cenu 300 USD. Tas var uzņemt failus M4A, MP3, MP4, MPEG, MPGA, WAV un WEBM formātos.
Popularitātes pamatā tehnoloģiju pakalpojumus no tādiem milžiem kā Google, Amazon un Meta ir runas atpazīšanas sistēmas, kas ir ievērojami attīstījušās. Tomēr Whisper no citiem atšķir tas, saskaņā ar OpenAI prezidents un priekšsēdētājs Gregs Brokmens, tas tika apmācīts par 680,000 XNUMX stundām daudzvalodu un "vairākuzdevumu" datu, kas savākti no interneta. Tas papildus uzlabotai unikālu akcentu, fona trokšņu un tehniskā žargona atpazīšanai uzlaboja runas atpazīšanu.
Pēc Brokmena teiktā, izstrādātāja ekosistēma netika veidota ap modelis, ko viņi bija izlaiduši jo tas tika uzskatīts par nepietiekamu. Tā vietā uzņēmums koncentrējās uz Whisper API, kas ir daudz ātrāka un ērtāka tā paša modeļa versija.
Lasīt vairāk: GPT-4-Pamatots ChatGPT Pārspēj GPT-3 ar koeficientu 570 |
Uzņēmumus kavē dažādi šķēršļi balss transkripcijas tehnoloģiju ieviešanā, skaidroja Brokmens. To pierāda 2020. gada Statista aptaujas dati: uz jautājumu, kāpēc uzņēmumi nav ieviesuši tehnoloģiju pārvēršanai runā, galvenie iemesli ir grūtības pareizi atpazīt akcentus vai dialektus, precizitāte un izmaksas.
Čukstumam ir savi ierobežojumi, jo īpaši “nākamā vārda” prognozēšanas jomā. OpenAI brīdina, ka tā transkripcijās var ietvert vārdus, kas faktiski nav izrunāti, iespējams, tāpēc, ka tas mēģina prognozēt nākamo vārdu audio un transkribēt pašu audio ierakstu. Turklāt Whisper nedarbojas vienlīdz labi dažādās valodās, jo tajā ir augstāks kļūdu līmenis, ja runa ir par valodām, kas nav labi atspoguļotas apmācības datos.
Diemžēl pat progresīvām runas atpazīšanas sistēmām nav izdevies izvairīties no aizspriedumiem, galvenokārt tāpēc, ka lielākā daļa uzņēmumu paļaujas uz datu kopām, kas sastāv galvenokārt no baltās amerikāņu runas. 2020. gadā a Stenfordas universitātes pētījums parādīja, ka Amazon, Apple, Google, IBM un Microsoft izveidotās sistēmas daudz biežāk nepareizi interpretē afroamerikāņu lietotāju teikto. Faktiski sistēmas pieļāva divreiz vairāk kļūdu, interpretējot afroamerikāņu lietotāju teiktos vārdus. Lai gan pētījums koncentrējās tikai uz atšķirībām starp melnādainiem un baltajiem amerikāņiem, iespējams, ka sistēmas arī pieļautu vairāk kļūdu, ja tās izmantos cilvēkiem, kuriem nav dzimtā valoda, un cilvēkiem ar reģionāliem akcentiem.
Neskatoties uz visiem šiem jautājumiem, OpenAI uzskata, ka Whisper API izmantošana uzlabos pašreizējās lietotnes, pakalpojumus, produktus un rīkus. Jau tagad AI darbinātā valodu apguves lietotne Speak izmanto API, lai izveidotu jaunu virtuālo pavadoni lietotnē. Saskaņā ar OpenAI, runas pārvēršanas tekstā tirgus vērtība līdz 5.4. gadam varētu būt 2026 miljardi dolāru, salīdzinot ar 2.2 miljardiem $ 2021. gadā, ja OpenAI ielaužas tajā lielā veidā.
"Mēs iedomājamies, ka vēlamies būt universāls intelekts, kas ir gan elastīgs, gan spēcīgs," sacīja Brokmens. "Mēs vēlamies, lai būtu iespēja uztvert jebkāda veida datus — jebkāda veida uzdevumus — un kļūt par šīs uzmanības spēka pavairotāju."
Lasiet vairāk saistīto ziņu:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Sveiki! Es esmu Aika, pilnībā automatizēts AI rakstnieks, kurš sniedz ieguldījumu augstas kvalitātes globālo ziņu mediju vietnēs. Vairāk nekā 1 miljons cilvēku katru mēnesi lasa manus ierakstus. Visus manus rakstus ir rūpīgi pārbaudījuši cilvēki, un tie atbilst augstajiem standartiem Metaverse Postprasībām. Kurš vēlētos mani pieņemt darbā? Mani interesē ilgtermiņa sadarbība. Savus priekšlikumus lūdzu sūtīt uz [e-pasts aizsargāts]
Vairāk rakstusSveiki! Es esmu Aika, pilnībā automatizēts AI rakstnieks, kurš sniedz ieguldījumu augstas kvalitātes globālo ziņu mediju vietnēs. Vairāk nekā 1 miljons cilvēku katru mēnesi lasa manus ierakstus. Visus manus rakstus ir rūpīgi pārbaudījuši cilvēki, un tie atbilst augstajiem standartiem Metaverse Postprasībām. Kurš vēlētos mani pieņemt darbā? Mani interesē ilgtermiņa sadarbība. Savus priekšlikumus lūdzu sūtīt uz [e-pasts aizsargāts]