Novinová správa Technológia
Môže 08, 2026

Nový OpenAI Zvukové modely poháňajú hlasových asistentov v reálnom čase s viacjazyčným prekladom a streamovacou inteligenciou

Stručne

OpenAI uvoľnený GPTModely Realtime-2, Translate a Whisper, ktoré rozširujú umelú inteligenciu pre hlas v reálnom čase o uvažovanie, preklad a transkripciu pre pokročilé konverzačné aplikácie.

Nový OpenAI Zvukové modely poháňajú hlasových asistentov v reálnom čase s viacjazyčným prekladom a streamovacou inteligenciou

OpenAI oznámila novú sadu zvukových modelov v rámci svojho ekosystému API, čím rozšírila možnosti hlasového prenosu v reálnom čase pre vývojárov a aplikácie riadené umelou inteligenciou. Vydanie obsahuje GPT-Reálny čas-2, GPT-Preklad v reálnom čase a GPT-Realtime-Whisper, pričom každý z nich je navrhnutý tak, aby umožňoval pokročilejšie, responzívnejšie a kontextovo orientované hlasové interakcie v rôznych prípadoch použitia.

GPT-Realtime-2 je pozicionovaný ako doteraz najpokročilejší hlasový model spoločnosti a predstavuje... GPT-5-triedne uvažovanie do živých zvukových konverzácií. Model je navrhnutý tak, aby spracovával zložité požiadavky používateľov, udržiaval kontextovú kontinuitu a podporoval viacstupňové uvažovanie pri interakcii v reálnom čase. Je určený pre aplikácie, kde hlasoví agenti musia nielen rýchlo reagovať, ale aj interpretovať zámer, riadiť prerušenia a vykonávať úlohy prostredníctvom integrovaného používania nástrojov.

popri tom, GPT-Realtime-Translate umožňuje živý preklad reči z viac ako 70 vstupných jazykov do 13 výstupných jazykov. Systém je navrhnutý tak, aby udržiaval plynulosť konverzácie a zároveň zachovával význam a načasovanie, čo umožňuje hovoriacim komunikovať v rôznych jazykoch bez viditeľných oneskorení. Táto funkcia je zameraná na globálnu zákaznícku podporu, vzdelávanie, cestovanie a cezhraničné komunikačné služby.

Tretí model, GPT-Realtime-Whisper sa zameriava na streamovanie prepisu reči na text. Poskytuje nepretržitý prepis s nízkou latenciou počas hovorenia používateľov, čo umožňuje titulky v reálnom čase, živú dokumentáciu a okamžité následné spracovanie hovoreného obsahu. Model je navrhnutý pre prostredia, kde je potrebná rýchla konverzia reči na text, ako sú napríklad stretnutia, mediálne vysielania a podnikové pracovné postupy.

OpenAI opísali kombinované vydanie ako krok smerom k hlasovým rozhraniam, ktoré idú nad rámec základných systémov príkazov a odpovedí. Namiesto jednoduchého rozpoznávania reči a generovania odpovedí sú modely určené na podporu nepretržitého uvažovania, prekladu, transkripcie a vykonávania akcií v rámci jedného konverzačného toku. Cieľom je umožniť hlasové systémy, ktoré môžu fungovať skôr ako interaktívni asistenti schopní plniť úlohy a zároveň zachovať prirodzený dialóg.

GPT-Realtime-2 posúva architektúru hlasovej umelej inteligencie dopredu so systémami hlasovej akcie a rozšírenými kontextovými oknami

Spoločnosť zdôraznila niekoľko nových dizajnových vzorov, ktoré táto technológia umožňuje. Patria sem systémy prevodu hlasu na akciu, kde používatelia môžu popisovať úlohy vykonávané prostredníctvom automatizovaného uvažovania a integrácie nástrojov; aplikácie typu systém-hlas, kde softvér generuje hovorené pokyny na základe kontextových údajov; a systémy prekladu hlasu na hlas, ktoré umožňujú viacjazyčnú komunikáciu medzi hovoriacimi v reálnom čase.

GPT-Realtime-2 prináša ďalšie architektonické vylepšenia pre produkčné použitie. Patria sem dlhšie kontextové okná rozšírené na 128 tisíc tokenov, vylepšené správanie pri obnovovaní počas prerušení alebo chýb, paralelné vykonávanie nástrojov s transparentnou spätnou väzbou a lepšie kontrolovateľné nastavenie tónu v závislosti od konverzačného kontextu. Vývojári môžu tiež doladiť úrovne uvažovania, aby vyvážili rýchlosť a zložitosť na základe potrieb aplikácie.

Výkonnostné kritériá uvedené OpenAI naznačujú zlepšené výsledky v úlohách uvažovania založeného na zvuku a sledovania inštrukcií v porovnaní s predchádzajúcimi iteráciami svojich modelov v reálnom čase. Systém tiež preukazuje lepšie spracovanie terminológie špecifickej pre danú oblasť a stabilnejšie správanie v prostredí viacnásobnej konverzácie.

Táto verzia obsahuje aj bezpečnostné mechanizmy vrátane monitorovania v reálnom čase a klasifikácie obsahu v rámci aktívnych relácií, spolu s ovládacími prvkami na úrovni vývojárov pre dodatočné ochranné prvky. Modely sú dostupné prostredníctvom rozhrania Realtime API a sú určené na nasadenie v podnikových, spotrebiteľských a vývojárskych aplikáciách, pričom ceny sú štruktúrované na základe metrík spracovania zvuku založených na používaní.

Zavedenie GPTRealtime-2 a jeho sprievodné modely odrážajú širší posun smerom k hlasovým výpočtovým systémom schopným uvažovania, prekladu a transkripcie v reálnom čase s cieľom urobiť hovorenú interakciu so softvérom funkčnejšou, adaptívnejšou a operačne schopnejšou.

Disclaimer

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Alisa, oddaná novinárka v MPost, špecializuje sa na kryptomeny, umelú inteligenciu, investície a rozsiahlu oblasť Web3. So záujmom o nové trendy a technológie poskytuje komplexné pokrytie s cieľom informovať a zapojiť čitateľov do neustále sa vyvíjajúceho prostredia digitálnych financií.

Ďalšie články
Alisa Davidsonová
Alisa Davidsonová

Alisa, oddaná novinárka v MPost, špecializuje sa na kryptomeny, umelú inteligenciu, investície a rozsiahlu oblasť Web3. So záujmom o nové trendy a technológie poskytuje komplexné pokrytie s cieľom informovať a zapojiť čitateľov do neustále sa vyvíjajúceho prostredia digitálnych financií.

Hot Stories
Pridajte sa k nášmu newsletteru.
Novinky

Ako spoločnosť Minmax buduje profesionálny terminál pre obchodovanie s umelou inteligenciou, na ktorom trhy v roku 2026 stále chýbajú predpovede.

Spoločnosť Minmax za prvé tri júnové dni spracovala približne 100 000 dolárov, pričom väčšina z toho bola prostredníctvom...

vedieť viac

Pokoj pred búrkou Solana: Čo teraz hovoria grafy, veľryby a signály na reťazci

Spoločnosť Solana preukázala silný výkon, ktorý bol poháňaný rastúcim prijatím, inštitucionálnym záujmom a kľúčovými partnerstvami, pričom zároveň čelí potenciálnym...

vedieť viac
Čítaj viac
Čítaj viac
Aktualizácia Gate: Od komoditných futures po predpovede majstrovstiev sveta – Gate hlási rast na všetkých frontoch
výťah Novinová správa Technológia
Aktualizácia Gate: Od komoditných futures po predpovede majstrovstiev sveta – Gate hlási rast na všetkých frontoch
Júna 12, 2026
Glassnode: Trh s bitcoinovými opciami ukazuje, že počiatočný šok z výpredaja bol absorbovaný
trhy Novinová správa Technológia
Glassnode: Trh s bitcoinovými opciami ukazuje, že počiatočný šok z výpredaja bol absorbovaný
Júna 12, 2026
Sponzorstvo je nasadenie: Šport a nová logika integrácie umelej inteligencie
Názor Životný štýl Technológia
Sponzorstvo je nasadenie: Šport a nová logika integrácie umelej inteligencie
Júna 12, 2026
Morgan Stanley, Visa a Flutterwave: Krypto partnerstvá od druhého týždňa júna
firmy Novinová správa Technológia
Morgan Stanley, Visa a Flutterwave: Krypto partnerstvá od druhého týždňa júna
Júna 12, 2026
CRYPTOMERIA LABS PTE. LTD.