OpenAI“ ChatGPT 推出重大升级,新增语音对话和图像聊天
简单来说
OpenAI 将推出新的语音和图像功能 ChatGPT 在接下来的两周内。
这些功能仅适用于 Plus 和 Enterprise 用户。
OpenAI 今天宣布将推出新的语音和图像功能 ChatGPT。 新功能将允许用户与 ChatGPT 或通过图像与聊天机器人聊天。
在此消息发布之前,Reddit 用户声称他们已经获得了访问权限 OpenAI的模型,随后在平台上分享了这些信息。 Redditor FeltSteam 描述了一个工作名称为 Arrakis 的人工智能模型,据报道该模型允许用户“输入文本、音频和视频的任意组合”。
“新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的示例语音中生成类似人类的音频,”Open AI 在一份报告中写道。 博客文章。 “我们与专业配音演员合作创作了每一个声音。 我们还使用我们的开源语音识别系统 Whisper 将您的口语转录成文本。”
我在 Reddit 上发现了一些关于强大内部模型的奇怪的未经证实的猜测。
— 亚姆·佩勒 (@Yampeleg) 2023 年 9 月 25 日
– 请持保留态度。 –
显然,
两个不同的用户声称他们可以访问 OpenAI的内部模型,并在 Reddit 上分享信息。
毛毡蒸汽… pic.twitter.com/JRJH4xADZX
借助新功能,用户可以与 ChatGPT 使用他们的声音。 他们还可以与聊天机器人讨论图像。 这些功能将在未来两周内向 Plus 和 Enterprise 用户推出。
语音功能将作为选择加入到 iOS 和 Android,而图像功能将在所有平台上提供。
要开始使用语音功能,用户可以前往移动应用程序上的“设置”→“新功能”,然后选择“语音对话”。 接下来,用户应该点击主屏幕右上角的耳机按钮,然后从五种不同的声音中选择他们喜欢的声音。
与交谈 ChatGPT 通过图像,用户可以点击照片按钮来捕获图像或选择图像。 如果使用 iOS 或 Android,请先点击加号按钮,然后再继续。 此外,他们可以使用多个图像进行讨论或使用它们来指导聊天机器人。
OpenAI 说图像理解是由多模态驱动的 GPT-35。 GPT-4。 这些模型利用语言推理能力来分析各种视觉内容,包括照片、屏幕截图以及包含文本和图像组合的文档。
OpenAI与 Spotify 的合作
Spotify 也 今天宣布证券 其人工智能语音翻译功能。 新功能可以利用播客的原始声音将播客翻译成不同的语言。
根据 一触即发,这个翻译功能依赖于 OpenAI的语音转录工具Whisper,能够转录英语语音,并将各种语言翻译成英语。
作为试点的一部分,该公司与播客 Dax Shepard、Monica Padman、Lex Fridman、Bill Simmons 和 Steven Bartlett 合作,为特定的目录剧集和即将推出的节目创建西班牙语、法语和德语等人工智能驱动的语音翻译发布。
Spotify 个性化副总裁 Ziad Sultan 在一份声明中表示:“我们相信,深思熟虑的人工智能方法可以帮助在听众和创作者之间建立更深层次的联系,这是 Spotify 释放人类创造力潜力的使命的关键组成部分。”
试播节目创作者制作的语音翻译剧集将向全球的高级和免费用户开放。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
辛迪是一名记者 Metaverse Post,涵盖相关主题 web3, NFT、元宇宙和人工智能,重点是采访 Web3 行业参与者。她曾与 30 多位 C 级高管进行过交谈,并将他们的宝贵见解带给读者。辛迪来自新加坡,现居住在格鲁吉亚第比利斯。她拥有南澳大利亚大学传播与媒体研究学士学位,并拥有十年的新闻和写作经验。通过以下方式与她联系 [电子邮件保护] 有新闻发布会、公告和采访机会。
更多文章辛迪是一名记者 Metaverse Post,涵盖相关主题 web3, NFT、元宇宙和人工智能,重点是采访 Web3 行业参与者。她曾与 30 多位 C 级高管进行过交谈,并将他们的宝贵见解带给读者。辛迪来自新加坡,现居住在格鲁吉亚第比利斯。她拥有南澳大利亚大学传播与媒体研究学士学位,并拥有十年的新闻和写作经验。通过以下方式与她联系 [电子邮件保护] 有新闻发布会、公告和采访机会。