Naujienos OpenAI Garso modeliai suteikia galimybę realiuoju laiku valdyti balso asistentus su daugiakalbiu vertimu ir srautinio perdavimo intelektu
Trumpai
OpenAI išleido GPT„Realtime-2“, „Translate“ ir „Whisper“ modeliai, išplečiantys realaus laiko balso dirbtinį intelektą samprotavimais, vertimu ir transkripcija pažangioms pokalbių programoms.

OpenAI paskelbė apie naują garso modelių rinkinį savo API ekosistemoje, žymintį realaus laiko balso galimybių išplėtimą kūrėjams ir dirbtinio intelekto valdomoms programoms. Leidime yra GPT-Realtime-2, GPT-Vertimas realiuoju laiku ir GPT- „Realtime-Whisper“ – kiekvienas iš jų skirtas įgalinti pažangesnę, reaguojančią ir kontekstą suvokiančią balso sąveiką įvairiais naudojimo atvejais.
GPT„Realtime-2“ pozicionuojamas kaip pažangiausias bendrovės balso modelis iki šiol, pristatant GPT-5klasės samprotavimą paversti tiesioginiais garso pokalbiais. Modelis sukurtas sudėtingoms vartotojų užklausoms apdoroti, kontekstiniam tęstinumui išlaikyti ir daugiapakopiam samprotavimui palaikyti bendraujant realiuoju laiku. Jis skirtas programoms, kuriose balso agentai turi ne tik greitai reaguoti, bet ir interpretuoti ketinimus, valdyti pertraukimus ir vykdyti užduotis naudodami integruotus įrankius.
Šalia jo, GPT„Realtime-Translate“ leidžia tiesiogiai versti kalbą iš daugiau nei 70 įvesties kalbų į 13 išvesties kalbų. Sistema sukurta taip, kad išlaikytų pokalbio sklandumą, išsaugant prasmę ir laiką, leisdama kalbėtojams bendrauti skirtingomis kalbomis be pastebimų vėlavimų. Ši funkcija skirta pasaulinei klientų aptarnavimo, švietimo, kelionių ir tarpvalstybinio bendravimo paslaugoms.
Trečiasis modelis, GPT„Realtime-Whisper“ daugiausia dėmesio skiria kalbos pavertimui tekstu. Jis užtikrina nepertraukiamą, mažo delsos laiko transkripciją vartotojams kalbant, įgalindamas subtitrus realiuoju laiku, tiesioginę dokumentaciją ir tiesioginį kalbėto turinio apdorojimą. Šis modelis skirtas aplinkoms, kuriose reikalingas greitas kalbos konvertavimas į tekstą, pavyzdžiui, susitikimams, žiniasklaidos transliacijoms ir įmonių darbo eigoms.
OpenAI apibūdino bendrą leidimą kaip žingsnį link balso sąsajų, kurios peržengia pagrindines komandų ir atsakymų sistemas. Užuot tiesiog atpažinę kalbą ir generavę atsakymus, modeliai skirti palaikyti nuolatinį samprotavimą, vertimą, transkripciją ir veiksmų vykdymą viename pokalbio sraute. Tikslas – įgalinti balso sistemas, kurios galėtų veikti labiau kaip interaktyvūs asistentai, galintys atlikti užduotis, išlaikant natūralų dialogą.
GPT„Realtime-2“ patobulina balso DI architektūrą su balso valdymo sistemomis ir išplėstiniais kontekstiniais langais.
Bendrovė pabrėžė keletą naujų dizaino modelių, kuriuos įgalina ši technologija. Tai apima balso į veiksmą sistemas, kuriose vartotojai gali aprašyti užduotis, kurios atliekamos automatiškai samprotaujant ir integruojant įrankius; sistemų į balsą programas, kuriose programinė įranga generuoja balsines instrukcijas remdamasi kontekstiniais duomenimis; ir balso į balsą vertimo sistemas, kurios leidžia daugiakalbiam bendravimui realiuoju laiku tarp kalbėtojų.
GPT„Realtime-2“ pristato papildomus architektūrinius patobulinimus, skirtus naudoti gamybinėje aplinkoje. Tai apima ilgesnius kontekstinius langus, išplėstus iki 128 tūkst. žetonų, patobulintą atkūrimo elgseną pertraukimų ar klaidų atveju, lygiagretų įrankių vykdymą su skaidriu grįžtamuoju ryšiu ir labiau valdomą tono reguliavimą, atsižvelgiant į pokalbio kontekstą. Kūrėjai taip pat gali tiksliai suderinti samprotavimo lygius, kad subalansuotų greitį ir sudėtingumą pagal programos poreikius.
Našumo kriterijai, kuriuos cituoja OpenAI rodo geresnius rezultatus garsu pagrįstose samprotavimo ir instrukcijų vykdymo užduotyse, palyginti su ankstesnėmis realaus laiko modelių iteracijomis. Sistema taip pat demonstruoja geresnį konkrečios srities terminijos valdymą ir stabilesnį veikimą kelių pokalbių aplinkoje.
Šiame leidime taip pat integruoti saugos mechanizmai, įskaitant stebėjimą realiuoju laiku ir turinio klasifikavimą aktyvių seansų metu, kartu su kūrėjų lygio valdikliais, skirtais papildomoms apsaugos priemonėms. Modeliai pasiekiami per „Realtime API“ ir yra pritaikyti diegti įmonių, vartotojų ir kūrėjų programose, o kainodara nustatoma pagal naudojimo pagrindu veikiančius garso apdorojimo rodiklius.
Įvadas GPT„Realtime-2“ ir jį lydintys modeliai atspindi platesnį poslinkį link balsu pagrįstų skaičiavimo sistemų, galinčių samprotauti, versti ir transkribuoti realiuoju laiku, siekiant, kad žodinė sąveika su programine įranga taptų funkcionalesnė, adaptyvesnė ir lengviau valdoma.
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, dirbtinio intelekto, investicijų ir plačios srities srityse Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.
Daugiau straipsnių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, dirbtinio intelekto, investicijų ir plačios srities srityse Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.



