OpenAI: Nova modelagem de recompensa supervisionada por processo melhora o raciocínio de IA
Em Breve
OpenAIA modelagem de recompensa supervisionada por processo (PRM) da Microsoft visa avaliar as etapas intermediárias e o raciocínio dos modelos de IA, levando a um melhor desempenho e métricas.
OpenAI mais uma vez chamou a atenção da comunidade de IA com seu trabalho inovador na modelagem de recompensas supervisionadas por processos (PRMs). Essa abordagem inovadora visa avaliar as etapas intermediárias e o raciocínio dos modelos de IA, levando a um melhor desempenho e métricas.
No aprendizado por reforço tradicional a partir do feedback humano (RLHF), o feedback do modelo normalmente é fornecido com base no resultado geral gerado pelo modelo. No entanto, OpenAIA nova pesquisa da empresa explora a ideia de avaliar as etapas individuais e os processos de raciocínio realizados pelo modelo. Ao fazer isso, eles podem fornecer avaliações e feedback mais refinados.
Para resolver este problema, OpenAI problemas matemáticos selecionados que exigiam múltiplas ações. Uma separação modelo foi treinado para avaliar efetivamente as etapas intermediárias, atuando como um crítico para identificar eventuais julgamentos errôneos feitos pelo modelo primário. Esse processo não apenas melhora o desempenho geral, mas também melhora as métricas usadas para avaliar as capacidades do modelo.
OpenAI fez avanços significativos nessa área, com o lançamento de um conjunto de dados meticulosamente curado que consiste em 800,000 julgamentos marcados. Cada julgamento representa um estágio separado na resolução de problemas matemáticos e foi criado manualmente. Isso destaca o nível de dedicação e recursos OpenAI investe no desenvolvimento de conjuntos de dados de alta qualidade, levantando questões sobre o volume de dados coletados para outros domínios, como programação ou questões abertas.
O treinamento de GPT-4, OpenAIa última iteração do GPT série, já está bem encaminhada. Embora o componente RLHF não seja incorporado nos experimentos atuais, um modelo de linguagem pura é utilizado. Notavelmente, OpenAI menciona que existem várias versões de GPT-4, com até mesmo a menor versão exigindo significativamente menos recursos para treinamento—aproximadamente 200 vezes menos.
Um exemplo intrigante compartilhado por OpenAI mostra como o modelo avalia cada passo de decisão individual. Em uma captura de tela incluída na postagem, os erros na solução são sinalizados e recebem a menor pontuação de correção, destacada em vermelho. Esta demonstração destaca a capacidade de raciocínio do modelo e fornece informações valiosas sobre seu processo de tomada de decisão. OpenAI também forneceu instruções para marcações, oferecendo oportunidades para que os crowdsourcers contribuam e se beneficiem de seu trabalho.
As OpenAI continua a ultrapassar os limites da pesquisa de IA, seu foco no raciocínio do modelo e na modelagem de recompensas supervisionadas por processos traz novas possibilidades para recursos aprimorados de IA. Este último avanço mostra seu compromisso em melhorar o desempenho do modelo e abre portas para novos avanços no campo.
- Recentemente, o co-fundador da A Apple supostamente restringe o uso de ChatGPT e outros chatbots com inteligência artificial devido a questões de privacidade. O Wall Street Journal informou que os trabalhadores também estão impedidos de usar a ferramenta de IA do GitHub, Copilot, que permite que os usuários escrevam automaticamente o código do software. ChatGPT é um chatbot com inteligência artificial desenvolvido por OpenAI, que foi criticado por violações de privacidade.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.