Relatório de notícias Tecnologia
12 de outubro de 2023

Os grandes modelos de linguagem de hoje serão modelos pequenos, de acordo com um pesquisador da OpenAI

Hyung Won Chung, um talentoso pesquisador de IA que trabalhou anteriormente no Google Brain e atualmente é membro do OpenAI equipe, fez um discurso instigante de 45 minutos no qual explorou o mundo dos grandes modelos de linguagem em 2023. Chung tem experiência na área; ele foi o primeiro autor do artigo do Google “Dimensionando modelos de linguagem ajustados por instrução,” que examina como grandes modelos de linguagem podem ser treinados para seguir instruções.

Hyung Won Chung, OpenAI

Chung enfatiza o mundo dos modelos linguísticos extensos como sendo dinâmico. No mundo dos LLMs, o princípio orientador está em constante evolução, em contraste com os campos tradicionais onde os pressupostos fundamentais normalmente permanecem estáveis. Com a próxima geração de modelos, o que atualmente se considera impossível ou impraticável poderá tornar-se possível. Ele enfatiza a importância de prefaciar a maioria das afirmações sobre as capacidades do LLM com “por enquanto”. Um modelo pode executar uma tarefa; simplesmente ainda não aconteceu.

Os grandes modelos de hoje serão modelos pequenos em apenas alguns anos

Hyung Won Chung, OpenAI

A necessidade de documentação meticulosa e reprodutibilidade em Pesquisa de IA é uma das lições mais importantes a serem aprendidas com o discurso de Chung. É crucial documentar minuciosamente o trabalho em andamento à medida que o campo se desenvolve. Esta estratégia garante que as experiências possam ser rapidamente replicadas e revisitadas, permitindo aos investigadores desenvolver trabalhos anteriores. Através desta prática, reconhece-se que poderão desenvolver-se no futuro capacidades que não eram práticas durante a investigação inicial.

Chung dedica uma parte de sua palestra para elucidar as complexidades dos dados e do paralelismo de modelos. Para aqueles interessados ​​em aprofundar os aspectos técnicos da IA, esta seção fornece informações valiosas sobre o funcionamento interno dessas técnicas de paralelismo. Compreender esses mecanismos é crucial para otimizar treinamento de modelo em grande escala.

Chung postula que a função objetivo atual, Máxima Verossimilhança, usada para pré-treinamento LLM é um gargalo quando se trata de alcançar escalas verdadeiramente massivas, como 10,000 vezes a capacidade de GPT-4. À medida que o aprendizado de máquina avança, as funções de perda projetadas manualmente tornam-se cada vez mais limitantes.

Chung sugere que o próximo paradigma no desenvolvimento de IA envolve funções de aprendizagem por meio de algoritmos separados. Esta abordagem, embora ainda na sua infância, mantém a promessa de escalabilidade para além das restrições actuais. Ele também destaca os esforços em curso, como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) com Modelagem de Regras, como passos nesta direção, embora ainda haja desafios a superar.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
O negócio Mercados Histórias e resenhas Tecnologia
A mudança de Donald Trump para a criptografia: de oponente a defensor e o que isso significa para o mercado de criptomoedas dos EUA
10 de maio de 2024
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
Mercados Relatório de notícias Tecnologia
Layer3 lançará token L3 neste verão, alocando 51% do fornecimento total para a comunidade
10 de maio de 2024
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
Mercados Segurança Wiki Software Histórias e resenhas Tecnologia
Aviso final de Edward Snowden aos desenvolvedores de Bitcoin: “Faça da privacidade uma prioridade em nível de protocolo ou arrisque perdê-la
10 de maio de 2024
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
Relatório de notícias Tecnologia
Ethereum Layer 2 Network Mint, movida a otimismo, lançará sua rede principal em 15 de maio
10 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.