Google ra mắt Gemini 3.1 Flash TTS: Kỷ nguyên mới của công nghệ tạo giọng nói AI siêu thực, hoàn toàn có thể điều khiển được.
Tóm lại
Google ra mắt Gemini 3.1 Flash TTS, một mô hình chuyển văn bản thành giọng nói tiên tiến với khả năng điều khiển, biểu cảm được cải thiện và hỗ trợ đa ngôn ngữ cho các ứng dụng giọng nói dựa trên trí tuệ nhân tạo.

Công ty công nghệ Google Hãng đã công bố phát hành Gemini 3.1 Flash Text-to-Speech (TTS), một mô hình tổng hợp giọng nói thế hệ mới được thiết kế để cải thiện khả năng điều khiển, tính biểu cảm và chất lượng đầu ra cho các nhà phát triển, doanh nghiệp và người dùng cuối đang xây dựng các ứng dụng âm thanh dựa trên trí tuệ nhân tạo.
Việc triển khai Gemini 3.1 Flash TTS hiện đang được tiến hành trên nhiều nền tảng của Google. Mô hình này hiện có sẵn ở dạng bản xem trước dành cho các nhà phát triển thông qua API Gemini và Google AI Studio, trong khi người dùng doanh nghiệp có thể truy cập bản xem trước thông qua Vertex AI. Việc tích hợp cũng đang được giới thiệu cho người dùng Google Workspace thông qua Google Vids, mở rộng khả năng sử dụng mô hình này trong môi trường người dùng cá nhân và chuyên nghiệp.
Hệ thống được cập nhật này thể hiện một bước tiến trong việc tạo giọng nói tổng hợp, với Google báo cáo những cải thiện có thể đo lường được về độ tự nhiên và khả năng biểu cảm. Theo đánh giá độc lập của Artificial Analysis, đơn vị đánh giá dữ liệu sở thích của con người trên quy mô lớn đối với các mô hình giọng nói, Gemini 3.1 Flash TTS đạt điểm Elo là 1,211. Đánh giá tương tự cũng xếp mô hình này vào nhóm hiệu năng cao, kết hợp chất lượng giọng nói tốt với chi phí tương đối hiệu quả. Hệ thống này cũng hỗ trợ hơn 70 ngôn ngữ và bao gồm chức năng hội thoại đa người nói, cùng với các tùy chọn điều khiển chi tiết được điều khiển bởi đầu vào ngôn ngữ tự nhiên.
Mở rộng các tùy chọn điều khiển và định hướng sáng tạo cho việc tạo giọng nói
Một tính năng quan trọng của bản phát hành này là việc giới thiệu các thẻ âm thanh, một cơ chế cho phép người dùng hướng dẫn đầu ra giọng nói chính xác hơn bằng cách nhúng các hướng dẫn có cấu trúc trực tiếp vào lời nhắc văn bản. Các điều khiển này cho phép điều chỉnh tốc độ, giọng điệu và phong cách giọng nói trong một quy trình tạo nội dung duy nhất. Hệ thống cũng hỗ trợ hướng dẫn theo lớp, cho phép các nhà phát triển defiNgữ cảnh cụ thể, phân công vai trò người nói thông qua các cấu hình âm thanh có thể tùy chỉnh và sửa đổi các thuộc tính phân phối ở cả cấp độ toàn cục và cấp độ câu.
Trong môi trường doanh nghiệp sử dụng Vertex AI, các điều khiển này được thiết kế để hỗ trợ các trường hợp sử dụng sản xuất nâng cao hơn, bao gồm tạo giọng nói có khả năng mở rộng cho các ứng dụng yêu cầu giọng nói nhân vật nhất quán hoặc hệ thống hội thoại động. Việc tích hợp cũng bao gồm chức năng xuất, cho phép chuyển đổi các cấu hình được tạo thành các định dạng sẵn sàng cho API để triển khai trên các nền tảng và dịch vụ khác nhau.
Mô hình này được đánh giá là phù hợp cho việc triển khai trên quy mô toàn cầu, với hiệu suất ổn định trên hơn 70 ngôn ngữ. Khả năng đa ngôn ngữ này được kết hợp với khả năng kiểm soát ngữ điệu được nâng cao, cho phép tạo ra các bản ghi âm tự nhiên và phù hợp với từng khu vực hơn trong các ngữ cảnh ngôn ngữ khác nhau.
Phản hồi từ các nhà phát triển và người dùng doanh nghiệp trong giai đoạn thử nghiệm ban đầu cho thấy độ chính xác trong thiết kế giọng nói được cải thiện và tính linh hoạt cao hơn trong việc định hình đầu ra biểu cảm. Việc sử dụng thẻ âm thanh được nhấn mạnh là một bổ sung quan trọng để xây dựng các tương tác bằng giọng nói phức tạp hơn, đặc biệt trong các trường hợp yêu cầu tạo âm thanh dựa trên nhân vật hoặc dựa trên câu chuyện.
Tất cả âm thanh đầu ra được tạo ra thông qua Gemini 3.1 Flash TTS đều được tích hợp công nghệ đánh dấu bản quyền SynthID. Hệ thống này đưa một mã định danh không thể nhận biết vào nội dung âm thanh được tạo ra, cho phép phát hiện phương tiện truyền thông do AI tạo ra và hỗ trợ các nỗ lực cải thiện tính xác thực của nội dung cũng như giảm thiểu rủi ro lạm dụng.
Trách nhiệm công ty
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.
Xem thêm bài viết
Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.



