Os grandes modelos de linguagem de hoje serão modelos pequenos, de acordo com um pesquisador da OpenAI
Hyung Won Chung, um talentoso pesquisador de IA que trabalhou anteriormente no Google Brain e atualmente é membro do OpenAI equipe, fez um discurso instigante de 45 minutos no qual explorou o mundo dos grandes modelos de linguagem em 2023. Chung tem experiência na área; ele foi o primeiro autor do artigo do Google “Dimensionando modelos de linguagem ajustados por instrução,” que examina como grandes modelos de linguagem podem ser treinados para seguir instruções.
Chung enfatiza o mundo dos modelos linguísticos extensos como sendo dinâmico. No mundo dos LLMs, o princípio orientador está em constante evolução, em contraste com os campos tradicionais onde os pressupostos fundamentais normalmente permanecem estáveis. Com a próxima geração de modelos, o que atualmente se considera impossível ou impraticável poderá tornar-se possível. Ele enfatiza a importância de prefaciar a maioria das afirmações sobre as capacidades do LLM com “por enquanto”. Um modelo pode executar uma tarefa; simplesmente ainda não aconteceu.
Os grandes modelos de hoje serão modelos pequenos em apenas alguns anos
Hyung Won Chung, OpenAI
A necessidade de documentação meticulosa e reprodutibilidade em Pesquisa de IA é uma das lições mais importantes a serem aprendidas com o discurso de Chung. É crucial documentar minuciosamente o trabalho em andamento à medida que o campo se desenvolve. Esta estratégia garante que as experiências possam ser rapidamente replicadas e revisitadas, permitindo aos investigadores desenvolver trabalhos anteriores. Através desta prática, reconhece-se que poderão desenvolver-se no futuro capacidades que não eram práticas durante a investigação inicial.
Chung dedica uma parte de sua palestra para elucidar as complexidades dos dados e do paralelismo de modelos. Para aqueles interessados em aprofundar os aspectos técnicos da IA, esta seção fornece informações valiosas sobre o funcionamento interno dessas técnicas de paralelismo. Compreender esses mecanismos é crucial para otimizar treinamento de modelo em grande escala.
Chung postula que a função objetivo atual, Máxima Verossimilhança, usada para pré-treinamento LLM é um gargalo quando se trata de alcançar escalas verdadeiramente massivas, como 10,000 vezes a capacidade de GPT-4. À medida que o aprendizado de máquina avança, as funções de perda projetadas manualmente tornam-se cada vez mais limitantes.
Chung sugere que o próximo paradigma no desenvolvimento de IA envolve funções de aprendizagem por meio de algoritmos separados. Esta abordagem, embora ainda na sua infância, mantém a promessa de escalabilidade para além das restrições actuais. Ele também destaca os esforços em curso, como a Aprendizagem por Reforço a partir do Feedback Humano (RLHF) com Modelagem de Regras, como passos nesta direção, embora ainda haja desafios a superar.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.