Báo cáo tin tức Công nghệ
08 Tháng Năm, 2026

Mới OpenAI Các mô hình âm thanh hỗ trợ trợ lý giọng nói thời gian thực với khả năng dịch đa ngôn ngữ và xử lý dữ liệu trực tuyến.

Tóm lại

OpenAI phát hành GPT-Các mô hình Realtime-2, Translate và Whisper, mở rộng khả năng AI giọng nói thời gian thực với khả năng suy luận, dịch thuật và phiên âm cho các ứng dụng hội thoại nâng cao.

Mới OpenAI Các mô hình âm thanh hỗ trợ trợ lý giọng nói thời gian thực với khả năng dịch đa ngôn ngữ và xử lý dữ liệu trực tuyến.

OpenAI Đã công bố một bộ mô hình âm thanh mới trong hệ sinh thái API của mình, đánh dấu sự mở rộng khả năng giọng nói thời gian thực cho các nhà phát triển và ứng dụng dựa trên trí tuệ nhân tạo. Bản phát hành này bao gồm... GPT-Thời gian thực-2, GPT-Dịch thuật thời gian thực và GPT-Realtime-Whisper, mỗi tính năng được thiết kế để cho phép tương tác bằng giọng nói tiên tiến hơn, phản hồi nhanh hơn và nhận biết ngữ cảnh hơn trong nhiều trường hợp sử dụng.

GPT-Realtime-2 được định vị là mô hình giọng nói tiên tiến nhất của công ty cho đến nay, giới thiệu GPT-5Mô hình này được thiết kế để xử lý các yêu cầu phức tạp của người dùng, duy trì tính liên tục của ngữ cảnh và hỗ trợ suy luận nhiều bước trong khi tương tác theo thời gian thực. Nó hướng đến các ứng dụng mà các trợ lý giọng nói không chỉ phải phản hồi nhanh chóng mà còn phải diễn giải ý định, quản lý sự gián đoạn và thực hiện các tác vụ thông qua việc sử dụng công cụ tích hợp.

Bên cạnh đó, GPT-Realtime-Translate cho phép dịch giọng nói trực tiếp từ hơn 70 ngôn ngữ đầu vào sang 13 ngôn ngữ đầu ra. Hệ thống được xây dựng để duy trì mạch hội thoại trong khi vẫn giữ nguyên ý nghĩa và nhịp điệu, cho phép người nói giao tiếp bằng các ngôn ngữ khác nhau mà không có độ trễ đáng kể. Khả năng này hướng đến các dịch vụ hỗ trợ khách hàng toàn cầu, giáo dục, du lịch và giao tiếp xuyên biên giới.

Mô hình thứ ba, GPT-Realtime-Whisper tập trung vào việc chuyển đổi giọng nói thành văn bản trực tuyến. Nó cung cấp khả năng chuyển đổi liên tục, độ trễ thấp ngay khi người dùng nói, cho phép tạo phụ đề theo thời gian thực, lập tài liệu trực tiếp và xử lý nội dung giọng nói ngay lập tức. Mô hình này được thiết kế cho các môi trường yêu cầu chuyển đổi giọng nói thành văn bản nhanh chóng, chẳng hạn như các cuộc họp, chương trình phát sóng đa phương tiện và quy trình làm việc của doanh nghiệp.

OpenAI Việc phát hành kết hợp này được mô tả như một bước tiến hướng tới giao diện giọng nói vượt xa các hệ thống lệnh và phản hồi cơ bản. Thay vì chỉ đơn thuần nhận dạng giọng nói và tạo ra câu trả lời, các mô hình này được thiết kế để hỗ trợ suy luận liên tục, dịch thuật, phiên âm và thực thi hành động trong một luồng hội thoại duy nhất. Mục tiêu là cho phép các hệ thống dựa trên giọng nói có thể hoạt động giống như các trợ lý tương tác, có khả năng hoàn thành nhiệm vụ trong khi vẫn duy trì cuộc đối thoại tự nhiên.

GPT-Realtime-2 Nâng cao kiến ​​trúc AI giọng nói với hệ thống chuyển đổi giọng nói thành hành động và cửa sổ ngữ cảnh mở rộng

Công ty đã nêu bật một số mô hình thiết kế mới nổi được hỗ trợ bởi công nghệ này. Chúng bao gồm các hệ thống chuyển đổi giọng nói thành hành động, trong đó người dùng có thể mô tả các nhiệm vụ được thực hiện thông qua suy luận tự động và tích hợp công cụ; các ứng dụng chuyển đổi hệ thống thành giọng nói, trong đó phần mềm tạo ra hướng dẫn bằng giọng nói dựa trên dữ liệu ngữ cảnh; và các hệ thống dịch giọng nói sang giọng nói, cho phép giao tiếp đa ngôn ngữ theo thời gian thực giữa những người nói.

GPT-Realtime-2 giới thiệu các cải tiến kiến ​​trúc bổ sung cho việc sử dụng trong môi trường sản xuất. Những cải tiến này bao gồm cửa sổ ngữ cảnh dài hơn được mở rộng lên 128K token, hành vi phục hồi được cải thiện trong trường hợp bị gián đoạn hoặc lỗi, thực thi công cụ song song với phản hồi minh bạch và điều chỉnh giọng điệu dễ kiểm soát hơn tùy thuộc vào ngữ cảnh hội thoại. Các nhà phát triển cũng có thể tinh chỉnh các cấp độ suy luận để cân bằng tốc độ và độ phức tạp dựa trên nhu cầu của ứng dụng.

Các tiêu chuẩn hiệu suất được trích dẫn bởi OpenAI Kết quả cho thấy sự cải thiện trong các nhiệm vụ suy luận dựa trên âm thanh và làm theo hướng dẫn so với các phiên bản trước của mô hình thời gian thực. Hệ thống cũng thể hiện khả năng xử lý thuật ngữ chuyên ngành tốt hơn và hành vi ổn định hơn trong các tình huống hội thoại nhiều lượt.

Phiên bản này cũng tích hợp các cơ chế an toàn, bao gồm giám sát thời gian thực và phân loại nội dung trong các phiên hoạt động, cùng với các điều khiển cấp nhà phát triển để tăng cường bảo vệ. Các mô hình này có sẵn thông qua API thời gian thực và được thiết kế để triển khai trên các ứng dụng dành cho doanh nghiệp, người tiêu dùng và nhà phát triển, với mức giá được cấu trúc dựa trên các chỉ số xử lý âm thanh theo mức sử dụng.

Việc giới thiệu GPT-Realtime-2 và các mô hình đi kèm phản ánh một sự chuyển dịch rộng hơn hướng tới các hệ thống điện toán dựa trên giọng nói có khả năng suy luận, dịch thuật và phiên âm trong thời gian thực, với mục đích làm cho tương tác bằng giọng nói với phần mềm trở nên hiệu quả hơn, thích ứng hơn và có khả năng vận hành tốt hơn.

Trách nhiệm công ty

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.

Xem thêm bài viết
Alisa Davidson
Alisa Davidson

Alisa, một nhà báo tận tâm tại MPostchuyên về tiền điện tử, trí tuệ nhân tạo, đầu tư và lĩnh vực rộng lớn khác. Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.

Hot Stories
Tham gia bản tin của chúng tôi.
THÔNG TIN MỚI NHẤT

Minmax đang xây dựng hệ thống giao dịch tự động chuyên nghiệp dựa trên trí tuệ nhân tạo (AI) mà thị trường dự đoán vẫn còn thiếu vào năm 2026 như thế nào?

Trong ba ngày đầu tháng Sáu, Minmax đã xử lý khối lượng giao dịch khoảng 100,000 đô la, phần lớn thông qua...

Biết thêm

Sự bình lặng trước cơn bão Solana: Biểu đồ, Cá voi và Tín hiệu trên chuỗi đang nói gì hiện nay

Solana đã chứng minh được hiệu suất mạnh mẽ, nhờ vào việc áp dụng ngày càng tăng, sự quan tâm của các tổ chức và các mối quan hệ đối tác quan trọng, đồng thời phải đối mặt với tiềm năng ...

Biết thêm
Đọc thêm
Tìm hiểu thêm
Bản tin cập nhật của Gate: Từ hợp đồng tương lai hàng hóa đến dự đoán World Cup — Gate báo cáo tăng trưởng trên mọi mặt trận.
Tiêu Báo cáo tin tức Công nghệ
Bản tin cập nhật của Gate: Từ hợp đồng tương lai hàng hóa đến dự đoán World Cup — Gate báo cáo tăng trưởng trên mọi mặt trận.
12 Tháng Sáu, 2026
Glassnode: Thị trường quyền chọn Bitcoin cho thấy cú sốc bán tháo ban đầu đã được hấp thụ.
Thị Trường Báo cáo tin tức Công nghệ
Glassnode: Thị trường quyền chọn Bitcoin cho thấy cú sốc bán tháo ban đầu đã được hấp thụ.
12 Tháng Sáu, 2026
Tài trợ chính là sự triển khai: Thể thao và logic mới của việc tích hợp AI.
Ý kiến Phong cách sống Công nghệ
Tài trợ chính là sự triển khai: Thể thao và logic mới của việc tích hợp AI.
12 Tháng Sáu, 2026
Morgan Stanley, Visa và Flutterwave: Các quan hệ đối tác trong lĩnh vực tiền điện tử bắt đầu từ tuần thứ 2 của tháng 6
Kinh doanh Báo cáo tin tức Công nghệ
Morgan Stanley, Visa và Flutterwave: Các quan hệ đối tác trong lĩnh vực tiền điện tử bắt đầu từ tuần thứ 2 của tháng 6
12 Tháng Sáu, 2026
CRYPTOMERIA LABS PTE. CÔNG TY TNHH