Buletin de stiri Tehnologia
Aprilie 16, 2026

Google lansează Gemini 3.1 Flash TTS: o nouă eră a generării de vorbire prin inteligență artificială, hiperrealistă și complet controlabilă

Pe scurt

Google lansează Gemini 3.1 Flash TTS, un model avansat de text-vorbire cu control îmbunătățit, expresivitate și suport multilingv pentru aplicațiile vocale bazate pe inteligență artificială.

Google lansează Gemini 3.1 Flash TTS: o nouă eră a generării de vorbire prin inteligență artificială, hiperrealistă și complet controlabilă

Companie de tehnologie Google a anunțat lansarea Gemini 3.1 Flash Text-to-Speech (TTS), un model de sinteză vocală de nouă generație conceput pentru a îmbunătăți controlabilitatea, expresivitatea și calitatea rezultatului pentru dezvoltatori, companii și utilizatori finali care creează aplicații audio bazate pe inteligență artificială.

Implementarea Gemini 3.1 Flash TTS este în curs de desfășurare pe mai multe platforme Google. Modelul este disponibil în versiune preliminară pentru dezvoltatori prin intermediul API-ului Gemini și Google AI Studio, în timp ce utilizatorii din mediul enterprise îl pot accesa în versiune preliminară prin Vertex AI. Integrarea este introdusă și pentru utilizatorii Google Workspace prin Google Vids, extinzând disponibilitatea modelului în mediile de consum și profesionale.

Sistemul actualizat reprezintă un progres în generarea vocii sintetice, Google raportând îmbunătățiri măsurabile în ceea ce privește naturalețea și capacitatea de expresie. Conform unui benchmark independent realizat de Artificial Analysis, care evaluează datele la scară largă privind preferințele umane pentru modelele de vorbire, Gemini 3.1 Flash TTS a obținut un scor Elo de 1,211. Aceeași evaluare plasează modelul într-o categorie de înaltă performanță, combinând o calitate puternică a vorbirii cu caracteristici de cost relativ eficiente. Sistemul acceptă, de asemenea, peste 70 de limbi și include funcționalitate de dialog cu mai mulți vorbitori, alături de opțiuni de control detaliate, bazate pe intrări în limbaj natural.

Controale extinse și direcție creativă pentru generarea de vorbire

O caracteristică cheie a lansării este introducerea etichetelor audio, un mecanism care permite utilizatorilor să ghideze mai precis ieșirea vocală prin încorporarea instrucțiunilor structurate direct în solicitările text. Aceste controale permit ajustări ale ritmului, tonului și stilului vocal într-un flux de lucru cu o singură generație. Sistemul acceptă, de asemenea, direcționarea stratificată, permițând dezvoltatorilor să deficontextul unei scene, atribui roluri de vorbitor prin profiluri audio configurabile și modifică atributele de livrare atât la nivel global, cât și la nivel de propoziție.

În mediile enterprise care utilizează Vertex AI, aceste controale sunt destinate să suporte cazuri de utilizare în producție mai avansate, inclusiv generarea scalabilă de voce pentru aplicații care necesită voci de personaje consistente sau sisteme de dialog dinamice. Integrarea include, de asemenea, funcționalitate de export, permițând convertirea configurațiilor generate în formate API-ready pentru implementare pe diferite platforme și servicii.

Modelul a fost poziționat ca fiind potrivit pentru implementare la scară globală, cu performanțe constante în peste 70 de limbi. Această capacitate multilingvă este combinată cu un control îmbunătățit al prozodiei, permițând redarea unor sunete vocale mai localizate și mai naturale în diferite contexte lingvistice.

Feedback-ul primit în urma testelor inițiale, primit de la dezvoltatori și utilizatori din mediul de afaceri, a indicat o precizie sporită în designul vocii și o flexibilitate sporită în modelarea rezultatului expresiv. Utilizarea etichetelor audio a fost evidențiată ca o completare semnificativă pentru construirea de interacțiuni vorbite mai complexe, în special în scenarii care necesită generarea de sunet bazat pe personaje sau pe narațiune.

Toate ieșirile audio generate prin Gemini 3.1 Flash TTS sunt încorporate cu tehnologia de filigranare SynthID. Acest sistem introduce un identificator imperceptibil în conținutul audio generat, permițând detectarea conținutului media generat de inteligența artificială și sprijinind eforturile de îmbunătățire a autenticității conținutului și de atenuare a riscurilor de utilizare abuzivă.

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Mai multe articole
Alisa Davidson
Alisa Davidson

Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Calmul dinaintea furtunii Solana: Ce spun acum graficele, balenele și semnalele on-chain

Solana a demonstrat o performanță solidă, determinată de creșterea adopției, a interesului instituțional și a parteneriatelor cheie, confruntându-se în același timp cu potențiale...

Aflați mai multe

Criptomonedele în aprilie 2025: tendințe cheie, schimbări și ce urmează

În aprilie 2025, spațiul criptomonedelor s-a concentrat pe consolidarea infrastructurii de bază, Ethereum pregătindu-se pentru Pectra...

Aflați mai multe
Citește mai mult
Află mai multe
Comisia bancară a Senatului promovează Legea CLARITY: De ce rețelele descentralizate merită propria categorie juridică
Opinie Afaceri Tehnologia
Comisia bancară a Senatului promovează Legea CLARITY: De ce rețelele descentralizate merită propria categorie juridică
15 Mai, 2026
Tokenizarea RWA ajunge la 31.4 miliarde de dolari, pe măsură ce condițiile de reglementare și infrastructură încep să convergă, spun analiștii
Afaceri Buletin de stiri Tehnologia
Tokenizarea RWA ajunge la 31.4 miliarde de dolari, pe măsură ce condițiile de reglementare și infrastructură încep să convergă, spun analiștii
15 Mai, 2026
Bitget lansează ecosistemul unificat de tranzacționare bazat pe inteligență artificială, depășește 1 milion de utilizatori și un volum de tranzacționare bazat pe inteligență artificială de 1.2 miliarde de dolari
Afaceri Buletin de stiri
Bitget lansează ecosistemul unificat de tranzacționare bazat pe inteligență artificială, depășește 1 milion de utilizatori și un volum de tranzacționare bazat pe inteligență artificială de 1.2 miliarde de dolari
15 Mai, 2026
OKX și Korea Investment & Securities vizează o dublă achiziție de 20% în Coinone, pe fondul valului de consolidare a criptomonedelor din Coreea de Sud
Afaceri Buletin de stiri Tehnologia
OKX și Korea Investment & Securities vizează o dublă achiziție de 20% în Coinone, pe fondul valului de consolidare a criptomonedelor din Coreea de Sud
15 Mai, 2026
CRYPTOMERIA LABS PTE. LTD.