全新发布 OpenAI 音频模型为实时语音助手提供多语言翻译和流媒体智能功能
简单来说
OpenAI 发布 GPT-实时-2、翻译和耳语模型,通过推理、翻译和转录扩展实时语音人工智能,以用于高级对话应用。

OpenAI 宣布在其 API 生态系统中推出一套新的音频模型,标志着面向开发者和 AI 应用的实时语音功能得到扩展。此次发布包括 GPT-实时-2, GPT实时翻译,以及 GPT-实时语音助手-Whisper,旨在实现更高级、响应更迅速、更具上下文感知能力的语音交互,适用于各种使用场景。
GPT-Realtime-2 被定位为该公司迄今为止最先进的语音模型,它引入了 GPT-5该模型将逻辑推理融入实时音频对话中。它旨在处理复杂的用户请求,保持上下文的连续性,并在实时交互过程中支持多步骤推理。该模型适用于语音代理不仅需要快速响应,还需要理解用户意图、处理中断并通过集成工具执行任务的应用场景。
在它旁边, GPT-实时翻译功能支持70多种输入语言到13种输出语言的实时语音翻译。该系统旨在保持对话流畅性,同时保留意义和时间信息,使说话者能够用不同语言进行交流,而不会出现明显的延迟。此功能主要面向全球客户支持、教育、旅游和跨境通信服务领域。
第三款模型, GPTRealtime-Whisper 专注于流式语音转文本转录。它可在用户说话的同时提供连续、低延迟的转录,从而实现实时字幕、实时文档记录以及语音内容的即时下游处理。该模型专为需要快速将语音转换为文本的环境而设计,例如会议、媒体广播和企业工作流程。
OpenAI 此次联合发布被描述为语音界面发展的重要一步,它将超越基本的命令与响应系统。这些模型并非仅仅识别语音并生成回复,而是旨在支持在单一对话流程中进行连续推理、翻译、转录和操作执行。其目标是使语音系统能够更像交互式助手,在完成任务的同时保持自然对话。
GPT-Realtime-2 通过语音交互系统和扩展的上下文窗口推进语音 AI 架构
该公司重点介绍了该技术催生的几种新兴设计模式。这些模式包括语音交互系统(用户可以描述任务,系统通过自动推理和工具集成来执行任务)、系统语音应用(软件根据上下文数据生成语音指导)以及语音翻译系统(支持说话者之间的实时多语言交流)。
GPTRealtime-2 为生产环境引入了更多架构改进。这些改进包括:将上下文窗口扩展至 128K 个令牌,改进了中断或错误期间的恢复行为,支持具有透明反馈的并行工具执行,以及根据对话上下文进行更可控的语气调整。开发人员还可以根据应用程序需求微调推理级别,以平衡速度和复杂性。
性能基准引用 OpenAI 与之前的实时模型版本相比,该系统在基于音频的推理和指令执行任务中表现出更优异的性能。此外,该系统对领域特定术语的处理能力更强,在多轮对话环境中也表现得更加稳定。
该版本还整合了多项安全机制,包括实时监控和活动会话中的内容分类,以及开发者级别的控制选项,以提供额外的安全保障。这些模型可通过实时 API 获取,适用于企业、消费者和开发者应用,定价基于音频处理的实际使用量。
引进 GPT-实时-2及其配套模型反映了向基于语音的计算系统转变的趋势,这些系统能够实时进行推理、翻译和转录,其目的是使与软件的语音交互更加实用、更具适应性和操作能力。
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。
更多文章
Alisa,一名热心记者 MPost专注于加密货币、人工智能、投资以及广阔的领域 Web3。她对新兴趋势和技术有着敏锐的洞察力,提供全面的报道,让读者了解和吸引读者了解不断发展的数字金融领域。



