Pesquisadores replicados OpenAIO Trabalho de Baseado na Otimização de Política Proximal (PPO) em RLHF
A Aprendizagem por Reforço com Feedback Humano (RLHF) é parte integrante de sistemas de treinamento como ChatGPTe depende de métodos especializados para alcançar o sucesso. Um desses métodos, a Otimização de Política Proximal (PPO), foi inicialmente concebida dentro dos muros de OpenAI em 2017. À primeira vista, o PPO destacou-se pela promessa de simplicidade na implementação e por um número relativamente baixo de hiperparâmetros necessários para ajustar o modelo. Porém, como dizem, o diabo está nos detalhes.
Recentemente, uma postagem no blog intitulada “Os 37 detalhes de implementação da otimização de políticas proximais” lançou luz sobre os meandros do PPO (preparado para a conferência ICLR). O nome por si só sugere os desafios enfrentados na implementação deste método supostamente simples. Surpreendentemente, os autores levaram três anos para reunir todas as informações necessárias e reproduzir os resultados.
O código no OpenAI O repositório sofreu mudanças significativas entre as versões, alguns aspectos ficaram sem explicação e peculiaridades que apareceram como bugs de alguma forma produziram resultados. A complexidade do PPO torna-se evidente quando você se aprofunda nos detalhes e, para aqueles interessados em uma compreensão profunda ou em autoaperfeiçoamento, há um resumo em vídeo altamente recomendado disponível.
Mas a história não termina aí. Os mesmos autores decidiram revisitar o openai/lm-human-repositório de preferências de 2019, que desempenhou um papel crucial no ajuste fino de modelos de linguagem baseados nas preferências humanas, usando PPO. Este repositório marcou os primeiros desenvolvimentos em ChatGPT. A postagem recente do blog, “Os N detalhes de implementação do RLHF com PPO”, replica de perto OpenAIfunciona, mas usa PyTorch e bibliotecas modernas em vez do TensorFlow desatualizado. Essa transição trouxe seu próprio conjunto de desafios, como diferenças na implementação do otimizador Adam entre frameworks, impossibilitando a replicação do treinamento sem ajustes.
Talvez o aspecto mais intrigante dessa jornada seja a busca por realizar experimentos em configurações específicas de GPU para obter métricas e curvas de aprendizado originais. É uma jornada repleta de desafios, desde restrições de memória em vários tipos de GPU até a migração de OpenAI conjuntos de dados entre instalações de armazenamento.
Concluindo, a exploração da Otimização de Política Proximal (PPO) na Aprendizagem por Reforço a partir de Feedback Humano (RLHF) revela um mundo fascinante de complexidades.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.