Relatório de notícias Tecnologia
01 de Junho de 2023

OpenAI: Nova modelagem de recompensa supervisionada por processo melhora o raciocínio de IA

Em Breve

OpenAIA modelagem de recompensa supervisionada por processo (PRM) da Microsoft visa avaliar as etapas intermediárias e o raciocínio dos modelos de IA, levando a um melhor desempenho e métricas.

OpenAI mais uma vez chamou a atenção da comunidade de IA com seu trabalho inovador na modelagem de recompensas supervisionadas por processos (PRMs). Essa abordagem inovadora visa avaliar as etapas intermediárias e o raciocínio dos modelos de IA, levando a um melhor desempenho e métricas.

OpenAI: Nova modelagem de recompensa supervisionada por processo melhora o raciocínio de IA
Crédito: Metaverse Post (mpost.io)
Recomendado: ChatGPT Poderia mudar Wall Street tornando a negociação mais fácil

No aprendizado por reforço tradicional a partir do feedback humano (RLHF), o feedback do modelo normalmente é fornecido com base no resultado geral gerado pelo modelo. No entanto, OpenAIA nova pesquisa da empresa explora a ideia de avaliar as etapas individuais e os processos de raciocínio realizados pelo modelo. Ao fazer isso, eles podem fornecer avaliações e feedback mais refinados.

Para resolver este problema, OpenAI problemas matemáticos selecionados que exigiam múltiplas ações. Uma separação modelo foi treinado para avaliar efetivamente as etapas intermediárias, atuando como um crítico para identificar eventuais julgamentos errôneos feitos pelo modelo primário. Esse processo não apenas melhora o desempenho geral, mas também melhora as métricas usadas para avaliar as capacidades do modelo.

OpenAI fez avanços significativos nessa área, com o lançamento de um conjunto de dados meticulosamente curado que consiste em 800,000 julgamentos marcados. Cada julgamento representa um estágio separado na resolução de problemas matemáticos e foi criado manualmente. Isso destaca o nível de dedicação e recursos OpenAI investe no desenvolvimento de conjuntos de dados de alta qualidade, levantando questões sobre o volume de dados coletados para outros domínios, como programação ou questões abertas.

O treinamento de GPT-4, OpenAIa última iteração do GPT série, já está bem encaminhada. Embora o componente RLHF não seja incorporado nos experimentos atuais, um modelo de linguagem pura é utilizado. Notavelmente, OpenAI menciona que existem várias versões de GPT-4, com até mesmo a menor versão exigindo significativamente menos recursos para treinamento—aproximadamente 200 vezes menos.

Um exemplo intrigante compartilhado por OpenAI mostra como o modelo avalia cada etapa de decisão individual. Em uma captura de tela incluída na postagem, os erros na solução são sinalizados e recebem a menor pontuação de correção, destacada em vermelho.
Crédito: OpenAI

Um exemplo intrigante compartilhado por OpenAI mostra como o modelo avalia cada passo de decisão individual. Em uma captura de tela incluída na postagem, os erros na solução são sinalizados e recebem a menor pontuação de correção, destacada em vermelho. Esta demonstração destaca a capacidade de raciocínio do modelo e fornece informações valiosas sobre seu processo de tomada de decisão. OpenAI também forneceu instruções para marcações, oferecendo oportunidades para que os crowdsourcers contribuam e se beneficiem de seu trabalho.

As OpenAI continua a ultrapassar os limites da pesquisa de IA, seu foco no raciocínio do modelo e na modelagem de recompensas supervisionadas por processos traz novas possibilidades para recursos aprimorados de IA. Este último avanço mostra seu compromisso em melhorar o desempenho do modelo e abre portas para novos avanços no campo.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
Mercados Relatório de notícias Tecnologia
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
8 de maio de 2024
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
Mercados Software Histórias e resenhas Tecnologia
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
8 de maio de 2024
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
O negócio Mercados Relatório de notícias
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
8 de maio de 2024
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
Relatório de notícias Tecnologia
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
8 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.