Relatório de notícias Tecnologia
27 de outubro de 2023

Pesquisadores replicados OpenAIO Trabalho de Baseado na Otimização de Política Proximal (PPO) em RLHF

A Aprendizagem por Reforço com Feedback Humano (RLHF) é parte integrante de sistemas de treinamento como ChatGPTe depende de métodos especializados para alcançar o sucesso. Um desses métodos, a Otimização de Política Proximal (PPO), foi inicialmente concebida dentro dos muros de OpenAI em 2017. À primeira vista, o PPO destacou-se pela promessa de simplicidade na implementação e por um número relativamente baixo de hiperparâmetros necessários para ajustar o modelo. Porém, como dizem, o diabo está nos detalhes.

Pesquisadores replicados OpenAIO Trabalho de Baseado na Otimização de Política Proximal (PPO) em RLHF

Recentemente, uma postagem no blog intitulada “Os 37 detalhes de implementação da otimização de políticas proximais” lançou luz sobre os meandros do PPO (preparado para a conferência ICLR). O nome por si só sugere os desafios enfrentados na implementação deste método supostamente simples. Surpreendentemente, os autores levaram três anos para reunir todas as informações necessárias e reproduzir os resultados.

O código no OpenAI O repositório sofreu mudanças significativas entre as versões, alguns aspectos ficaram sem explicação e peculiaridades que apareceram como bugs de alguma forma produziram resultados. A complexidade do PPO torna-se evidente quando você se aprofunda nos detalhes e, para aqueles interessados ​​em uma compreensão profunda ou em autoaperfeiçoamento, há um resumo em vídeo altamente recomendado disponível.

Mas a história não termina aí. Os mesmos autores decidiram revisitar o openai/lm-human-repositório de preferências de 2019, que desempenhou um papel crucial no ajuste fino de modelos de linguagem baseados nas preferências humanas, usando PPO. Este repositório marcou os primeiros desenvolvimentos em ChatGPT. A postagem recente do blog, “Os N detalhes de implementação do RLHF com PPO”, replica de perto OpenAIfunciona, mas usa PyTorch e bibliotecas modernas em vez do TensorFlow desatualizado. Essa transição trouxe seu próprio conjunto de desafios, como diferenças na implementação do otimizador Adam entre frameworks, impossibilitando a replicação do treinamento sem ajustes.

Talvez o aspecto mais intrigante dessa jornada seja a busca por realizar experimentos em configurações específicas de GPU para obter métricas e curvas de aprendizado originais. É uma jornada repleta de desafios, desde restrições de memória em vários tipos de GPU até a migração de OpenAI conjuntos de dados entre instalações de armazenamento.

Concluindo, a exploração da Otimização de Política Proximal (PPO) na Aprendizagem por Reforço a partir de Feedback Humano (RLHF) revela um mundo fascinante de complexidades.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
Mercados Relatório de notícias Tecnologia
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
9 de maio de 2024
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
Digerir O negócio Mercados Tecnologia
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
9 de maio de 2024
Notcoin será lançado no OKX Jumpstart e oferece 1.25% do fornecimento total de tokens para mineração
Mercados Relatório de notícias Tecnologia
Notcoin será lançado no OKX Jumpstart e oferece 1.25% do fornecimento total de tokens para mineração
9 de maio de 2024
Puffer Finance lança sua rede principal e aprimora a inclusão de operadores de nós para descentralização de rede
Relatório de notícias Tecnologia
Puffer Finance lança sua rede principal e aprimora a inclusão de operadores de nós para descentralização de rede
9 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.