OpenAI'S ChatGPT Ra mắt bản nâng cấp lớn, thêm tính năng trò chuyện bằng giọng nói và trò chuyện bằng hình ảnh
Tóm lại
OpenAI sẽ triển khai các khả năng thoại và hình ảnh mới trong ChatGPT trong hai tuần tới.
Những tính năng này sẽ chỉ khả dụng cho người dùng Plus và Enterprise.
OpenAI hôm nay đã thông báo rằng họ sẽ triển khai các khả năng thoại và hình ảnh mới trong ChatGPT. Các tính năng mới sẽ cho phép người dùng trò chuyện bằng giọng nói với ChatGPT hoặc trò chuyện với chatbot thông qua hình ảnh.
Thông báo này theo sau những tuyên bố của người dùng Reddit, những người tuyên bố rằng họ đã có quyền truy cập vào OpenAIcủa các mô hình và sau đó đã chia sẻ thông tin này trên nền tảng. Redditor FeltSteam đã mô tả một mô hình AI có tên hoạt động là Arrakis, được cho là cho phép người dùng “nhập bất kỳ sự kết hợp nào giữa văn bản, âm thanh và video”.
“Khả năng giọng nói mới được hỗ trợ bởi mô hình chuyển văn bản thành giọng nói mới, có khả năng tạo ra âm thanh giống con người chỉ từ văn bản và một vài giây lời nói mẫu,” Open AI viết trong một báo cáo. blog đăng bài. “Chúng tôi cộng tác với các diễn viên lồng tiếng chuyên nghiệp để tạo ra từng giọng nói. Chúng tôi cũng sử dụng Whisper, hệ thống nhận dạng giọng nói nguồn mở của chúng tôi, để chuyển lời nói của bạn thành văn bản.”
Tôi tìm thấy một số suy đoán kỳ lạ chưa được xác nhận về các mô hình nội bộ mạnh mẽ trên Reddit.
- Yam Peleg (@Yampeleg) Ngày 25 tháng 2023 năm XNUMX
– Hãy coi tất cả như một hạt muối. –
Rõ ràng,
Hai người dùng khác nhau khẳng định họ có quyền truy cập vào OpenAImô hình nội bộ của và đang chia sẻ thông tin trên reddit.
Cảm thấySteam… pic.twitter.com/JRJH4xADZX
Với các tính năng mới, người dùng có thể tham gia vào cuộc trò chuyện qua lại với ChatGPT sử dụng giọng nói của họ. Họ cũng có thể thảo luận về hình ảnh với chatbot. Các tính năng này sẽ được triển khai trong hai tuần tới cho người dùng Plus và Enterprise.
Khả năng giọng nói sẽ có trên iOS và Android dưới dạng tùy chọn tham gia trong khi tính năng hình ảnh sẽ có sẵn trên tất cả các nền tảng.
Để bắt đầu sử dụng chức năng giọng nói, người dùng có thể đi tới Cài đặt → Tính năng mới trên ứng dụng di động và chọn “cuộc trò chuyện bằng giọng nói”. Tiếp theo, người dùng nên nhấn vào nút tai nghe ở góc trên bên phải màn hình chính và chọn giọng nói ưa thích của họ từ danh sách năm giọng nói khác nhau.
Để trò chuyện với ChatGPT thông qua hình ảnh, người dùng có thể nhấn vào nút ảnh để chụp ảnh hoặc chọn một ảnh. Nếu sử dụng iOS hoặc Android, hãy nhấn vào nút dấu cộng trước khi tiếp tục. Ngoài ra, họ có thể tham gia thảo luận bằng nhiều hình ảnh hoặc sử dụng chúng để hướng dẫn chatbot.
OpenAI nói rằng khả năng hiểu hình ảnh được hỗ trợ bởi đa phương thức GPT-3.5 và GPT-4. Những mô hình này tận dụng khả năng suy luận ngôn ngữ để phân tích nhiều mảng nội dung trực quan đa dạng, bao gồm ảnh, ảnh chụp màn hình và tài liệu có chứa sự kết hợp giữa văn bản và hình ảnh.
OpenAIquan hệ đối tác với Spotify
Spotify cũng vậy hôm nay đã công bố tính năng dịch giọng nói được hỗ trợ bởi AI. Tính năng mới có thể dịch podcast sang các ngôn ngữ khác nhau, sử dụng giọng nói gốc của podcaster.
Theo The Verge, tính năng dịch này dựa vào OpenAIcông cụ phiên âm giọng nói của Whisper, có thể phiên âm lời nói tiếng Anh và dịch nhiều ngôn ngữ khác nhau sang tiếng Anh.
Là một phần của chương trình thí điểm, công ty đã hợp tác với các podcast Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons và Steven Bartlett để tạo ra các bản dịch giọng nói do AI điều khiển bằng các ngôn ngữ như tiếng Tây Ban Nha, tiếng Pháp và tiếng Đức cho các tập danh mục cụ thể và các tập sắp tới. phát hành.
Ziad Sultan, Phó Giám đốc Cá nhân hóa tại Spotify, cho biết trong một tuyên bố: “Chúng tôi tin rằng cách tiếp cận chu đáo với AI có thể giúp xây dựng mối liên hệ sâu sắc hơn giữa người nghe và người sáng tạo, một thành phần quan trọng trong sứ mệnh của Spotify nhằm giải phóng tiềm năng sáng tạo của con người”.
Các tập được dịch bằng giọng nói từ những người sáng tạo thử nghiệm sẽ có sẵn trên toàn thế giới cho người dùng Premium và Free.
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Cindy là một nhà báo tại Metaverse Post, bao gồm các chủ đề liên quan đến web3, NFT, metaverse và AI, tập trung vào các cuộc phỏng vấn với Web3 người chơi trong ngành. Cô đã nói chuyện với hơn 30 giám đốc điều hành cấp C và ngày càng tăng, mang đến cho độc giả những hiểu biết sâu sắc có giá trị của họ. Xuất thân từ Singapore, Cindy hiện sống ở Tbilisi, Georgia. Cô có bằng Cử nhân về Nghiên cứu Truyền thông & Truyền thông của Đại học Nam Úc và có mười năm kinh nghiệm trong lĩnh vực báo chí và viết lách. Hãy liên lạc với cô ấy qua [email được bảo vệ] với các bài báo, thông báo và cơ hội phỏng vấn.
Xem thêm bài viếtCindy là một nhà báo tại Metaverse Post, bao gồm các chủ đề liên quan đến web3, NFT, metaverse và AI, tập trung vào các cuộc phỏng vấn với Web3 người chơi trong ngành. Cô đã nói chuyện với hơn 30 giám đốc điều hành cấp C và ngày càng tăng, mang đến cho độc giả những hiểu biết sâu sắc có giá trị của họ. Xuất thân từ Singapore, Cindy hiện sống ở Tbilisi, Georgia. Cô có bằng Cử nhân về Nghiên cứu Truyền thông & Truyền thông của Đại học Nam Úc và có mười năm kinh nghiệm trong lĩnh vực báo chí và viết lách. Hãy liên lạc với cô ấy qua [email được bảo vệ] với các bài báo, thông báo và cơ hội phỏng vấn.