Google lansează Gemini 3.1 Flash TTS: o nouă eră a generării de vorbire prin inteligență artificială, hiperrealistă și complet controlabilă
Pe scurt
Google lansează Gemini 3.1 Flash TTS, un model avansat de text-vorbire cu control îmbunătățit, expresivitate și suport multilingv pentru aplicațiile vocale bazate pe inteligență artificială.

Companie de tehnologie Google a anunțat lansarea Gemini 3.1 Flash Text-to-Speech (TTS), un model de sinteză vocală de nouă generație conceput pentru a îmbunătăți controlabilitatea, expresivitatea și calitatea rezultatului pentru dezvoltatori, companii și utilizatori finali care creează aplicații audio bazate pe inteligență artificială.
Implementarea Gemini 3.1 Flash TTS este în curs de desfășurare pe mai multe platforme Google. Modelul este disponibil în versiune preliminară pentru dezvoltatori prin intermediul API-ului Gemini și Google AI Studio, în timp ce utilizatorii din mediul enterprise îl pot accesa în versiune preliminară prin Vertex AI. Integrarea este introdusă și pentru utilizatorii Google Workspace prin Google Vids, extinzând disponibilitatea modelului în mediile de consum și profesionale.
Sistemul actualizat reprezintă un progres în generarea vocii sintetice, Google raportând îmbunătățiri măsurabile în ceea ce privește naturalețea și capacitatea de expresie. Conform unui benchmark independent realizat de Artificial Analysis, care evaluează datele la scară largă privind preferințele umane pentru modelele de vorbire, Gemini 3.1 Flash TTS a obținut un scor Elo de 1,211. Aceeași evaluare plasează modelul într-o categorie de înaltă performanță, combinând o calitate puternică a vorbirii cu caracteristici de cost relativ eficiente. Sistemul acceptă, de asemenea, peste 70 de limbi și include funcționalitate de dialog cu mai mulți vorbitori, alături de opțiuni de control detaliate, bazate pe intrări în limbaj natural.
Controale extinse și direcție creativă pentru generarea de vorbire
O caracteristică cheie a lansării este introducerea etichetelor audio, un mecanism care permite utilizatorilor să ghideze mai precis ieșirea vocală prin încorporarea instrucțiunilor structurate direct în solicitările text. Aceste controale permit ajustări ale ritmului, tonului și stilului vocal într-un flux de lucru cu o singură generație. Sistemul acceptă, de asemenea, direcționarea stratificată, permițând dezvoltatorilor să deficontextul unei scene, atribui roluri de vorbitor prin profiluri audio configurabile și modifică atributele de livrare atât la nivel global, cât și la nivel de propoziție.
În mediile enterprise care utilizează Vertex AI, aceste controale sunt destinate să suporte cazuri de utilizare în producție mai avansate, inclusiv generarea scalabilă de voce pentru aplicații care necesită voci de personaje consistente sau sisteme de dialog dinamice. Integrarea include, de asemenea, funcționalitate de export, permițând convertirea configurațiilor generate în formate API-ready pentru implementare pe diferite platforme și servicii.
Modelul a fost poziționat ca fiind potrivit pentru implementare la scară globală, cu performanțe constante în peste 70 de limbi. Această capacitate multilingvă este combinată cu un control îmbunătățit al prozodiei, permițând redarea unor sunete vocale mai localizate și mai naturale în diferite contexte lingvistice.
Feedback-ul primit în urma testelor inițiale, primit de la dezvoltatori și utilizatori din mediul de afaceri, a indicat o precizie sporită în designul vocii și o flexibilitate sporită în modelarea rezultatului expresiv. Utilizarea etichetelor audio a fost evidențiată ca o completare semnificativă pentru construirea de interacțiuni vorbite mai complexe, în special în scenarii care necesită generarea de sunet bazat pe personaje sau pe narațiune.
Toate ieșirile audio generate prin Gemini 3.1 Flash TTS sunt încorporate cu tehnologia de filigranare SynthID. Acest sistem introduce un identificator imperceptibil în conținutul audio generat, permițând detectarea conținutului media generat de inteligența artificială și sprijinind eforturile de îmbunătățire a autenticității conținutului și de atenuare a riscurilor de utilizare abuzivă.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.
Mai multe articole
Alisa, o jurnalistă dedicată la MPost, specializată în criptomonede, inteligență artificială, investiții și domeniul vast al Web3. Cu un ochi aprofundat pentru tendințele și tehnologiile emergente, ea oferă o acoperire cuprinzătoare pentru a informa și a implica cititorii în peisajul în continuă evoluție al finanțelor digitale.



