Mới OpenAI Các mô hình âm thanh hỗ trợ trợ lý giọng nói thời gian thực với khả năng dịch đa ngôn ngữ và xử lý dữ liệu trực tuyến.
Tóm lại
OpenAI phát hành GPT-Các mô hình Realtime-2, Translate và Whisper, mở rộng khả năng AI giọng nói thời gian thực với khả năng suy luận, dịch thuật và phiên âm cho các ứng dụng hội thoại nâng cao.

OpenAI Đã công bố một bộ mô hình âm thanh mới trong hệ sinh thái API của mình, đánh dấu sự mở rộng khả năng giọng nói thời gian thực cho các nhà phát triển và ứng dụng dựa trên trí tuệ nhân tạo. Bản phát hành này bao gồm... GPT-Thời gian thực-2, GPT-Dịch thuật thời gian thực và GPT-Realtime-Whisper, mỗi tính năng được thiết kế để cho phép tương tác bằng giọng nói tiên tiến hơn, phản hồi nhanh hơn và nhận biết ngữ cảnh hơn trong nhiều trường hợp sử dụng.
GPT-Realtime-2 được định vị là mô hình giọng nói tiên tiến nhất của công ty cho đến nay, giới thiệu GPT-5Mô hình này được thiết kế để xử lý các yêu cầu phức tạp của người dùng, duy trì tính liên tục của ngữ cảnh và hỗ trợ suy luận nhiều bước trong khi tương tác theo thời gian thực. Nó hướng đến các ứng dụng mà các trợ lý giọng nói không chỉ phải phản hồi nhanh chóng mà còn phải diễn giải ý định, quản lý sự gián đoạn và thực hiện các tác vụ thông qua việc sử dụng công cụ tích hợp.
Bên cạnh đó, GPT-Realtime-Translate cho phép dịch giọng nói trực tiếp từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra. Hệ thống được xây dựng để duy trì mạch hội thoại trong khi vẫn giữ nguyên ý nghĩa và nhịp điệu, cho phép người nói giao tiếp bằng các ngôn ngữ khác nhau mà không có độ trễ đáng kể. Khả năng này hướng đến các dịch vụ hỗ trợ khách hàng toàn cầu, giáo dục, du lịch và giao tiếp xuyên biên giới.
Mô hình thứ ba, GPT-Realtime-Whisper tập trung vào việc chuyển đổi giọng nói thành văn bản trực tuyến. Nó cung cấp khả năng chuyển đổi liên tục, độ trễ thấp ngay khi người dùng nói, cho phép tạo phụ đề theo thời gian thực, lập tài liệu trực tiếp và xử lý nội dung giọng nói ngay lập tức. Mô hình này được thiết kế cho các môi trường yêu cầu chuyển đổi giọng nói thành văn bản nhanh chóng, chẳng hạn như các cuộc họp, chương trình phát sóng đa phương tiện và quy trình làm việc của doanh nghiệp.
OpenAI Việc phát hành kết hợp này được mô tả như một bước tiến hướng tới giao diện giọng nói vượt xa các hệ thống lệnh và phản hồi cơ bản. Thay vì chỉ đơn thuần nhận dạng giọng nói và tạo ra câu trả lời, các mô hình này được thiết kế để hỗ trợ suy luận liên tục, dịch thuật, phiên âm và thực thi hành động trong một luồng hội thoại duy nhất. Mục tiêu là cho phép các hệ thống dựa trên giọng nói có thể hoạt động giống như các trợ lý tương tác, có khả năng hoàn thành nhiệm vụ trong khi vẫn duy trì cuộc đối thoại tự nhiên.
GPT-Realtime-2 Nâng cao kiến trúc AI giọng nói với hệ thống chuyển đổi giọng nói thành hành động và cửa sổ ngữ cảnh mở rộng
Công ty đã nêu bật một số mô hình thiết kế mới nổi được hỗ trợ bởi công nghệ này. Chúng bao gồm các hệ thống chuyển đổi giọng nói thành hành động, trong đó người dùng có thể mô tả các nhiệm vụ được thực hiện thông qua suy luận tự động và tích hợp công cụ; các ứng dụng chuyển đổi hệ thống thành giọng nói, trong đó phần mềm tạo ra hướng dẫn bằng giọng nói dựa trên dữ liệu ngữ cảnh; và các hệ thống dịch giọng nói sang giọng nói, cho phép giao tiếp đa ngôn ngữ theo thời gian thực giữa những người nói.
GPT-Realtime-2 giới thiệu các cải tiến kiến trúc bổ sung cho việc sử dụng trong môi trường sản xuất. Những cải tiến này bao gồm cửa sổ ngữ cảnh dài hơn được mở rộng lên 128K token, hành vi phục hồi được cải thiện trong trường hợp bị gián đoạn hoặc lỗi, thực thi công cụ song song với phản hồi minh bạch và điều chỉnh giọng điệu dễ kiểm soát hơn tùy thuộc vào ngữ cảnh hội thoại. Các nhà phát triển cũng có thể tinh chỉnh các cấp độ suy luận để cân bằng tốc độ và độ phức tạp dựa trên nhu cầu của ứng dụng.
Các tiêu chuẩn hiệu suất được trích dẫn bởi OpenAI Kết quả cho thấy sự cải thiện trong các nhiệm vụ suy luận dựa trên âm thanh và làm theo hướng dẫn so với các phiên bản trước của mô hình thời gian thực. Hệ thống cũng thể hiện khả năng xử lý thuật ngữ chuyên ngành tốt hơn và hành vi ổn định hơn trong các tình huống hội thoại nhiều lượt.
Phiên bản này cũng tích hợp các cơ chế an toàn, bao gồm giám sát thời gian thực và phân loại nội dung trong các phiên hoạt động, cùng với các điều khiển cấp nhà phát triển để tăng cường bảo vệ. Các mô hình này có sẵn thông qua API thời gian thực và được thiết kế để triển khai trên các ứng dụng dành cho doanh nghiệp, người tiêu dùng và nhà phát triển, với mức giá được cấu trúc dựa trên các chỉ số xử lý âm thanh theo mức sử dụng.
Việc giới thiệu GPT-Realtime-2 và các mô hình đi kèm phản ánh một sự chuyển dịch rộng hơn hướng tới các hệ thống điện toán dựa trên giọng nói có khả năng suy luận, dịch thuật và phiên âm trong thời gian thực, với mục đích làm cho tương tác bằng giọng nói với phần mềm trở nên hiệu quả hơn, thích ứng hơn và có khả năng vận hành tốt hơn.
Trách nhiệm công ty
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.
Xem thêm bài viết
Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.



