OpenAI“ ChatGPT 推出重大升級,新增語音對話和影像聊天
簡單來說
OpenAI 將推出新的語音和圖像功能 ChatGPT 在接下來的兩週內。
這些功能僅適用於 Plus 和 Enterprise 用戶。
OpenAI 今天宣布將推出新的語音和圖像功能 ChatGPT。 新功能將允許用戶與 ChatGPT 或透過影像與聊天機器人聊天。
在此消息發布之前,Reddit 用戶聲稱他們已經獲得了存取權限 OpenAI的模型,隨後在平台上分享了這些資訊。 Redditor FeltSteam 描述了一個工作名稱為 Arrakis 的人工智慧模型,據報道該模型允許用戶「輸入文字、音訊和視訊的任意組合」。
「新的語音功能由新的文字轉語音模型提供支持,能夠僅從文字和幾秒鐘的範例語音中生成類似人類的音頻,」Open AI 在一份報告中寫道。 博客文章。 「我們與專業配音員合作創作了每一個聲音。 我們還使用我們的開源語音識別系統 Whisper 將您的口語轉錄成文字。”
我在 Reddit 上發現了一些關於強大內部模型的奇怪的未經證實的猜測。
— 亞姆佩勒 (@Yampeleg) 2023 年 9 月 25 日
– 請持保留態度。 –
顯然,
兩個不同的用戶聲稱他們可以訪問 OpenAI的內部模型,並在 Reddit 上分享資訊。
毛氈蒸氣… pic.twitter.com/JRJH4xADZX
借助新功能,使用者可以與 ChatGPT 使用他們的聲音。 他們還可以與聊天機器人討論圖像。 這些功能將在未來兩週內向 Plus 和 Enterprise 用戶推出。
語音功能將作為選擇加入 iOS 和 Android,而圖像功能將在所有平台上提供。
要開始使用語音功能,用戶可以前往行動應用程式上的“設定”→“新功能”,然後選擇“語音對話”。 接下來,使用者應該點擊主畫面右上角的耳機按鈕,然後從五種不同的聲音中選擇他們喜歡的聲音。
與交談 ChatGPT 透過影像,使用者可以點擊照片按鈕來捕捉影像或選擇影像。 如果使用 iOS 或 Android,請先點選加號按鈕,然後再繼續。 此外,他們可以使用多個圖像進行討論或使用它們來指導聊天機器人。
OpenAI 說影像理解是由多模態驅動的 GPT-3.5和 GPT-4。 這些模型利用語言推理能力來分析各種視覺內容,包括照片、螢幕截圖以及包含文字和圖像組合的文件。
OpenAI與 Spotify 的合作
Spotify 也是如此 今天宣布 其人工智慧語音翻譯功能。 新功能可以利用播客的原始聲音將播客翻譯成不同的語言。
根據 一觸即發,這個翻譯功能依賴 OpenAI的語音轉錄工具Whisper,能夠轉錄英語語音,並將各種語言翻譯成英語。
作為試點的一部分,該公司與播客 Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons 和 Steven Bartlett 合作,為特定的目錄劇集和即將推出的節目創建西班牙語、法語和德語等人工智慧驅動的語音翻譯發布。
Spotify 個人化副總裁Ziad Sultan 在聲明中表示:「我們相信,深思熟慮的人工智慧方法可以幫助在聽眾和創作者之間建立更深的聯繫,這是Spotify 釋放人類創造力潛力的使命的關鍵組成部分。”
試播節目創作者製作的語音翻譯劇集將向全球的高級和免費用戶開放。
免責聲明
在與線 信託專案指南,請注意,本頁提供的資訊無意且不應被解釋為法律、稅務、投資、財務或任何其他形式的建議。 重要的是,僅投資您可以承受損失的金額,並在有任何疑問時尋求獨立的財務建議。 如需了解更多信息,我們建議您參閱條款和條件以及發行人或廣告商提供的幫助和支援頁面。 MetaversePost 致力於提供準確、公正的報告,但市場狀況如有變更,恕不另行通知。
關於作者
辛迪是一名記者 Metaverse Post,涵蓋相關主題 web3, NFT、元宇宙和人工智能,重點是採訪 Web3 行業參與者。她曾與 30 多位 C 級高管進行過交談,並將他們的寶貴見解帶給讀者。辛蒂來自新加坡,現居住在喬治亞第比利斯。她擁有南澳大利亞大學傳播與媒體研究學士學位,並擁有十年的新聞和寫作經驗。透過以下方式與她聯繫 [電子郵件保護] 有新聞發布會、公告和採訪機會。
更多文章辛迪是一名記者 Metaverse Post,涵蓋相關主題 web3, NFT、元宇宙和人工智能,重點是採訪 Web3 行業參與者。她曾與 30 多位 C 級高管進行過交談,並將他們的寶貴見解帶給讀者。辛蒂來自新加坡,現居住在喬治亞第比利斯。她擁有南澳大利亞大學傳播與媒體研究學士學位,並擁有十年的新聞和寫作經驗。透過以下方式與她聯繫 [電子郵件保護] 有新聞發布會、公告和採訪機會。