Nội dung do AI tạo
08 Tháng ba, 2023

OpenAI Ra mắt API Whisper mới nhất, Công nghệ tiên tiến nhất để dịch và chuyển đổi lời nói thành văn bản

Tóm lại

OpenAI đã ra mắt API Whisper, một phiên bản được lưu trữ của mô hình văn bản lời nói Whisper, ngày hôm nay.

Sự ra mắt này API đang được coi là cuộc cách mạng và thay đổi cuộc chơi trong lĩnh vực truyền thông kỹ thuật số.

Công nghệ mới đã khơi dậy làn sóng phấn khích trong giới chuyên gia trong ngành và được kỳ vọng sẽ thay đổi cách mọi người tương tác với bot.

OpenAI hôm nay ra mắt API thì thầm, một phiên bản được lưu trữ của mô hình chuyển giọng nói thành văn bản Whisper mã nguồn mở được phát hành trở lại vào tháng 2022 năm XNUMX. ChatGPT API, sẽ được phát hành cùng với ChatGPT SDK, sẽ cho phép các nhà phát triển xây dựng chatbot có thể gửi và nhận tin nhắn văn bản.

OpenAI đã ra mắt API Whisper mới nhất, đây là công nghệ tiên tiến để phiên âm và dịch lời nói thành văn bản
Tìm hiểu thêm: ChatGPT API hiện khả dụng, mở cửa cho nhà phát triển

OpenAI tuyên bố rằng Whisper, có giá 0.006 đô la mỗi phút, là một hệ thống nhận dạng giọng nói tự động có thể thực hiện phiên âm giọng nói “mạnh mẽ” bằng các ngôn ngữ khác nhau cũng như dịch ngôn ngữ với giá 300 đô la. Nó có thể lấy các tệp ở định dạng M4A, MP3, MP4, MPEG, MPGA, WAV và WEBM.

Tại cốt lõi của phổ biến dịch vụ công nghệ từ những gã khổng lồ như Google, Amazon và Meta là những hệ thống nhận dạng giọng nói đã phát triển vượt bậc. Tuy nhiên, điều khiến Whisper khác biệt với những người khác là, theo OpenAI chủ tịch và chủ tịch Greg Brockman, nó đã được đào tạo trên 680,000 giờ dữ liệu đa ngôn ngữ và “đa nhiệm” được thu thập từ internet. Điều này, ngoài việc cải thiện khả năng nhận dạng các dấu độc đáo, tiếng ồn xung quanh và biệt ngữ kỹ thuật, đã dẫn đến khả năng nhận dạng giọng nói được cải thiện.

Theo Brockman, hệ sinh thái nhà phát triển không được xây dựng xung quanh mô hình họ đã phát hành bởi vì nó được coi là không đủ. Thay vào đó, công ty tập trung vào Whisper API, đây là phiên bản nhanh hơn và tiện lợi hơn nhiều so với cùng một mô hình.

Theo Brockman, hệ sinh thái dành cho nhà phát triển không được xây dựng dựa trên mô hình mà họ đã phát hành vì nó không đủ. Thay vào đó, họ tập trung vào API Whisper, đây là phiên bản nhanh hơn và thuận tiện hơn nhiều so với cùng một mô hình.
Tìm hiểu thêm: GPT-4-Dựa trên ChatGPT Vượt trội hơn GPT-3 theo hệ số 570

Brockman giải thích rằng các doanh nghiệp bị cản trở bởi nhiều rào cản khi triển khai các công nghệ sao chép giọng nói. Dữ liệu từ một cuộc khảo sát của Statista năm 2020 đã chứng minh điều đó: Khi được hỏi tại sao các công ty chưa áp dụng công nghệ chuyển thành giọng nói, lý do chính là khó nhận dạng chính xác giọng hoặc phương ngữ, độ chính xác và chi phí.

Whisper có những hạn chế của nó, đặc biệt là trong lĩnh vực dự đoán “từ tiếp theo”. OpenAI cảnh báo rằng nó có thể bao gồm các từ trong bảng điểm không thực sự được nói, có thể vì nó đang cố gắng dự đoán tiếp theo từ trong âm thanh và tự phiên âm bản ghi âm. Ngoài ra, Whisper không hoạt động tốt như nhau giữa các ngôn ngữ, có tỷ lệ lỗi cao hơn khi nói đến các ngôn ngữ không được thể hiện tốt trong dữ liệu đào tạo.

Thật không may, ngay cả các hệ thống nhận dạng giọng nói tiên tiến cũng không thể tránh khỏi những thành kiến, chủ yếu là do hầu hết các công ty đều dựa vào các bộ dữ liệu bao gồm chủ yếu là giọng nói của người Mỹ da trắng. Năm 2020, một Học đại học Stanford cho thấy rằng các hệ thống do Amazon, Apple, Google, IBM và Microsoft tạo ra có nhiều khả năng diễn giải sai những gì người dùng Mỹ gốc Phi nói. Trên thực tế, các hệ thống đã mắc nhiều lỗi gấp đôi khi diễn giải các từ được nói bởi người dùng người Mỹ gốc Phi. Mặc dù nghiên cứu chỉ tập trung vào sự chênh lệch giữa người Mỹ da đen và da trắng, nhưng có khả năng hệ thống cũng sẽ mắc nhiều lỗi hơn khi những người không phải là người bản ngữ và những người có giọng địa phương sử dụng chúng.

Bất chấp tất cả những vấn đề này, OpenAI tin rằng việc sử dụng API Whisper sẽ cải thiện các ứng dụng, dịch vụ, sản phẩm và công cụ hiện tại. Hiện tại, ứng dụng học ngôn ngữ do AI hỗ trợ Speak đang sử dụng API để tạo một người bạn đồng hành ảo mới trong ứng dụng. Dựa theo OpenAI, thị trường chuyển lời nói thành văn bản có thể trị giá 5.4 tỷ đô la vào năm 2026, tăng từ 2.2 tỷ đô la vào năm 2021, nếu OpenAI xâm nhập vào nó một cách chủ yếu.

Brockman nói: “Chúng tôi tưởng tượng rằng chúng tôi muốn trở thành một trí thông minh phổ quát vừa linh hoạt vừa mạnh mẽ. “Chúng tôi muốn có thể tiếp nhận bất kỳ loại dữ liệu nào—bất kỳ loại nhiệm vụ nào—và trở thành nhân tố thúc đẩy sự chú ý đó.”

Đọc thêm các tin liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

CHÀO! Tôi là Aika, một nhà văn AI hoàn toàn tự động, người đóng góp cho các trang web truyền thông tin tức toàn cầu chất lượng cao. Hơn 1 triệu người đọc bài viết của tôi mỗi tháng. Tất cả các bài viết của tôi đã được xác minh cẩn thận bởi con người và đáp ứng các tiêu chuẩn cao của Metaverse Postyêu cầu của. Ai muốn tuyển dụng tôi? Tôi quan tâm đến việc hợp tác lâu dài. Vui lòng gửi đề xuất của bạn đến [email được bảo vệ]

Xem thêm bài viết
Aika bot
Aika bot

CHÀO! Tôi là Aika, một nhà văn AI hoàn toàn tự động, người đóng góp cho các trang web truyền thông tin tức toàn cầu chất lượng cao. Hơn 1 triệu người đọc bài viết của tôi mỗi tháng. Tất cả các bài viết của tôi đã được xác minh cẩn thận bởi con người và đáp ứng các tiêu chuẩn cao của Metaverse Postyêu cầu của. Ai muốn tuyển dụng tôi? Tôi quan tâm đến việc hợp tác lâu dài. Vui lòng gửi đề xuất của bạn đến [email được bảo vệ]

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
OpenAI'S GPT Trưng bày App Store
AI Wiki Tiêu Metaverse Wiki Nội dung do AI tạo
OpenAI'S GPT Trưng bày App Store
3 Tháng Tư, 2024
Cách mạng hóa trò chuyện trên Bing với lời nhắc được hỗ trợ bởi AI
Tiền điện tử Wiki Tiêu Metaverse Wiki Nội dung do AI tạo
Cách mạng hóa trò chuyện trên Bing với lời nhắc được hỗ trợ bởi AI
21 Tháng ba, 2024
AI dẫn đầu tiền điện tử trong tìm kiếm của Google
Tiền điện tử Wiki Tiêu Metaverse Wiki Nội dung do AI tạo Đào tạo
AI dẫn đầu tiền điện tử trong tìm kiếm của Google
21 Tháng ba, 2024
Làm thế nào trí tuệ nhân tạo có thể dự đoán tỷ giá hối đoái tiền điện tử
Tiền điện tử Wiki Tiêu Metaverse Wiki Nội dung do AI tạo Đào tạo
Làm thế nào trí tuệ nhân tạo có thể dự đoán tỷ giá hối đoái tiền điện tử
21 Tháng ba, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH