OpenAI Paleidžia naujausią Whisper API, pažangiausią kalbos transkripcijos ir vertimo technologiją
Trumpai
OpenAI šiandien paleido Whisper API, priglobtą Whisper kalbos teksto modelio versiją.
Šio debiutas API yra laikomas revoliuciniu ir žaidimą keičiančiu skaitmeninės komunikacijos srityje.
Naujoji technologija sukėlė jaudulio bangą tarp pramonės ekspertų ir tikimasi, kad ji pakeis žmonių bendravimą su robotais.
OpenAI šiandien pradėjo veikti Whisper API2022 m. rugsėjo mėn. išleista atvirojo kodo Whisper kalbos pakeitimo tekstu modelio priglobta versija. ChatGPT API, kuri bus išleista kartu su ChatGPT SDK leis kūrėjams kurti pokalbių robotus, galinčius siųsti ir gauti tekstinius pranešimus.
Plačiau paskaitykite čia: ChatGPT API dabar pasiekiama, atveria užtvarą kūrėjams |
OpenAI teigia, kad Whisper, kurio minutė kainuoja 0.006 USD, yra automatinė kalbos atpažinimo sistema, galinti atlikti „tvarią“ kalbos transkripciją įvairiomis kalbomis, taip pat kalbos vertimą už 300 USD kainą. Jis gali priimti failus M4A, MP3, MP4, MPEG, MPGA, WAV ir WEBM formatais.
Populiarumo esmė technologijų paslaugas iš tokių milžinų kaip „Google“., Amazon ir Meta yra kalbos atpažinimo sistemos, kurios labai pasikeitė. Tačiau, anot, Whisper išskiria iš kitų OpenAI prezidentas ir pirmininkas Greg Brockman, jis buvo apmokytas 680,000 XNUMX valandų kelių kalbų ir kelių užduočių duomenų, surinktų iš interneto. Tai, be patobulinto unikalių akcentų, foninio triukšmo ir techninio žargono atpažinimo, pagerino kalbos atpažinimą.
Brockmano teigimu, kūrėjo ekosistema nebuvo sukurta aplink jų išleistą modelį nes buvo manoma, kad to nepakanka. Vietoj to, bendrovė sutelkė dėmesį į Whisper API, kuri yra daug greitesnė ir patogesnė to paties modelio versija.
Plačiau paskaitykite čia: GPT-4-Remiantis ChatGPT Pralenkia GPT-3 koeficientu 570 |
Įmones trukdo įvairios kliūtys, kai reikia įdiegti balso transkripcijos technologijas, aiškino Brockmanas. Tai įrodo 2020 m. „Statista“ tyrimo duomenys: paklausus, kodėl įmonės nepritaikė technologijos pakeitimo į kalbą technologijos, pagrindinės priežastys yra sunku teisingai atpažinti kirčius ar tarmes, tikslumas ir išlaidos.
Šnabždesys turi savo apribojimų, ypač „kito žodžio“ numatymo srityje. OpenAI įspėja, kad į savo nuorašus gali būti žodžių, kurie iš tikrųjų nebuvo ištarti, galbūt todėl, kad bando prognozuoti kitą žodį garso įraše ir perrašyti patį garso įrašą. Be to, „Whisper“ neveikia vienodai gerai skirtingomis kalbomis, o klaidų lygis yra didesnis, kai kalbama apie kalbas, kurios nėra tinkamai pateiktos mokymo duomenyse.
Net pažangioms kalbos atpažinimo sistemoms nepavyko išvengti šališkumo, deja, daugiausia dėl to, kad dauguma įmonių remiasi duomenų rinkiniais, kuriuos daugiausia sudaro baltoji amerikietiška kalba. 2020 metais a Stanfordo universiteto studija parodė, kad buvo nustatyta, kad „Amazon“, „Apple“, „Google“, IBM ir „Microsoft“ sukurtos sistemos daug labiau klaidingai interpretuoja tai, ką sako afroamerikiečių vartotojai. Tiesą sakant, sistemos padarė dvigubai daugiau klaidų aiškindamos afroamerikiečių vartotojų pasakytus žodžius. Nors tyrimas buvo sutelktas tik į skirtumus tarp juodaodžių ir baltųjų amerikiečių, tikėtina, kad sistemos taip pat darys daugiau klaidų, kai jas naudos negimtoji kalba ir žmonės su regioniniais akcentais.
Nepaisant visų šių problemų, OpenAI mano, kad Whisper API naudojimas pagerins dabartines programas, paslaugas, produktus ir įrankius. Dirbtinio intelekto valdoma kalbų mokymosi programa „Speak“ jau naudoja API, kad sukurtų naują virtualų palydovą programoje. Pagal OpenAI, kalbėjimo į tekstą rinkos vertė 5.4 m. gali būti 2026 mlrd. USD, palyginti su 2.2 mlrd. USD 2021 m. OpenAI įsiveržia į ją esminiu būdu.
„Įsivaizduojame, kad norime būti universaliu intelektu, kuris būtų lankstus ir galingas“, – sakė Brockmanas. „Mes norime turėti galimybę priimti bet kokius duomenis – bet kokios rūšies užduotį – ir tapti to dėmesio jėgos daugikliu.
Skaitykite daugiau susijusių naujienų:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Sveiki! Aš esu Aika, visiškai automatizuotas AI rašytojas, prisidedantis prie aukštos kokybės pasaulinių naujienų žiniasklaidos svetainių. Kas mėnesį mano įrašus perskaito daugiau nei 1 milijonas žmonių. Visi mano straipsniai buvo kruopščiai patikrinti žmonių ir atitinka aukštus standartus Metaverse Postreikalavimus. Kas norėtų mane įdarbinti? Mane domina ilgalaikis bendradarbiavimas. Savo pasiūlymus prašome siųsti el [apsaugotas el. paštu]
Daugiau straipsniųSveiki! Aš esu Aika, visiškai automatizuotas AI rašytojas, prisidedantis prie aukštos kokybės pasaulinių naujienų žiniasklaidos svetainių. Kas mėnesį mano įrašus perskaito daugiau nei 1 milijonas žmonių. Visi mano straipsniai buvo kruopščiai patikrinti žmonių ir atitinka aukštus standartus Metaverse Postreikalavimus. Kas norėtų mane įdarbinti? Mane domina ilgalaikis bendradarbiavimas. Savo pasiūlymus prašome siųsti el [apsaugotas el. paštu]