New OpenAI Modelos de áudio potencializam assistentes de voz em tempo real com tradução multilíngue e inteligência de streaming.
Em Breve
OpenAI liberado GPTOs modelos Realtime-2, Translate e Whisper expandem a IA de voz em tempo real com raciocínio, tradução e transcrição para aplicações conversacionais avançadas.

OpenAI A empresa anunciou um novo conjunto de modelos de áudio em seu ecossistema de APIs, representando uma expansão nos recursos de voz em tempo real para desenvolvedores e aplicativos baseados em IA. O lançamento inclui GPT-Tempo real-2, GPT-Tradução em tempo real e GPT-Realtime-Whisper, cada um projetado para permitir interações de voz mais avançadas, responsivas e contextuais em uma variedade de casos de uso.
GPTO Realtime-2 se posiciona como o modelo de voz mais avançado da empresa até o momento, introduzindo GPT-5O modelo aplica raciocínio de classe em conversas de áudio ao vivo. Ele foi projetado para lidar com solicitações complexas do usuário, manter a continuidade contextual e suportar raciocínio em várias etapas durante a interação em tempo real. É destinado a aplicações em que os agentes de voz precisam não apenas responder rapidamente, mas também interpretar intenções, gerenciar interrupções e executar tarefas por meio do uso integrado de ferramentas.
Ao lado dele, GPTO Realtime-Translate permite a tradução simultânea de voz em mais de 70 idiomas de entrada para 13 idiomas de saída. O sistema foi desenvolvido para manter a fluidez da conversa, preservando o significado e o ritmo, permitindo que os interlocutores se comuniquem em diferentes idiomas sem atrasos perceptíveis. Essa funcionalidade é voltada para serviços globais de suporte ao cliente, educação, viagens e comunicação internacional.
O terceiro modelo, GPTO Realtime Whisper concentra-se na transcrição contínua de fala em texto. Ele fornece transcrição contínua e de baixa latência enquanto os usuários falam, permitindo legendas em tempo real, documentação ao vivo e processamento imediato do conteúdo falado. O modelo foi projetado para ambientes onde a conversão rápida de fala em texto é necessária, como reuniões, transmissões de mídia e fluxos de trabalho corporativos.
OpenAI A empresa descreveu o lançamento conjunto como um passo em direção a interfaces de voz que vão além dos sistemas básicos de comando e resposta. Em vez de simplesmente reconhecer a fala e gerar respostas, os modelos visam suportar raciocínio contínuo, tradução, transcrição e execução de ações dentro de um único fluxo de conversa. O objetivo é viabilizar sistemas baseados em voz que possam funcionar mais como assistentes interativos capazes de concluir tarefas enquanto mantêm um diálogo natural.
GPT-Realtime-2 Aprimora a arquitetura de IA de voz com sistemas de voz para ação e janelas de contexto expandidas.
A empresa destacou diversos padrões de design emergentes possibilitados pela tecnologia. Entre eles, estão os sistemas de voz para ação, nos quais os usuários podem descrever tarefas que são executadas por meio de raciocínio automatizado e integração de ferramentas; os aplicativos de sistema para voz, nos quais o software gera orientações faladas com base em dados contextuais; e os sistemas de tradução de voz para voz, que permitem a comunicação multilíngue em tempo real entre os interlocutores.
GPTO Realtime 2 introduz melhorias arquitetônicas adicionais para uso em produção. Estas incluem janelas de contexto mais longas, expandidas para 128 mil tokens, comportamento de recuperação aprimorado durante interrupções ou erros, execução paralela de ferramentas com feedback transparente e ajuste de tom mais controlável, dependendo do contexto da conversa. Os desenvolvedores também podem ajustar os níveis de raciocínio para equilibrar velocidade e complexidade com base nas necessidades da aplicação.
Indicadores de desempenho citados por OpenAI Os resultados indicam melhorias no raciocínio baseado em áudio e em tarefas de seguimento de instruções em comparação com iterações anteriores de seus modelos em tempo real. O sistema também demonstra maior domínio da terminologia específica da área e comportamento mais estável em contextos de conversação com múltiplas interações.
A versão também incorpora mecanismos de segurança, incluindo monitoramento em tempo real e classificação de conteúdo em sessões ativas, além de controles de nível de desenvolvedor para salvaguardas adicionais. Os modelos estão disponíveis por meio da API Realtime e são adequados para implantação em aplicativos corporativos, de consumo e voltados para desenvolvedores, com preços estruturados em métricas de processamento de áudio baseadas no uso.
A introdução de GPTO Realtime-2 e seus modelos associados refletem uma mudança mais ampla em direção a sistemas de computação baseados em voz, capazes de raciocinar, traduzir e transcrever em tempo real, com o objetivo de tornar a interação falada com o software mais funcional, adaptativa e operacionalmente viável.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.
Mais artigos
Alisa, jornalista dedicada do MPost, é especializada em criptomoedas, IA, investimentos e no vasto campo de Web3. Com um olhar atento às tendências e tecnologias emergentes, ela oferece uma cobertura abrangente para informar e envolver os leitores no cenário em constante evolução das finanças digitais.



