15 de maio de 2023

Programas LLM: o novo caminho para o ajuste fino de modelos neurais em situações complexas

Publicado: 15 de maio de 2023 às 3h42 Atualizado: 15 de maio de 2023 às 3h42

Editado e verificado: 15 de maio de 2023 às 3h42

Em Breve

Os autores propõem um caminho alternativo chamado Programas LLM, que pode ser considerado como o desenvolvimento da aprendizagem em contexto.

A chave para resolver um problema por meio do Programa LLM é a capacidade de decompor a solução de um problema em uma sequência de etapas mais simples.

Existem duas áreas principais de personalização do LLM: ajuste fino (ou treinamento adicional) do modelo básico pré-treinado e aprendizado no contexto. O ajuste fino requer recursos de computação significativos, coleta de dados e infraestrutura para fazer isso e, em seguida, hospedar modelos ajustados. Enquanto isso, o aprendizado no contexto envolve a compilação do prompt certo com exemplos de resolução do problema, como Chain-of-Thought (CoT). No entanto, existem algumas dificuldades, como o tamanho limitado do texto que pode ser submetido ao modelo e o fato de que em um prompt complexo de várias passagens, as etapas podem interferir umas nas outras e o modelo pode se distrair com algo isso não deve ser distraído no momento. Os autores propõem um caminho alternativo denominado Programas LLM, que pode ser considerado como o desenvolvimento da aprendizagem em contexto.

Programas LLM: o novo caminho para o ajuste fino de modelos neurais em situações complexas

O LLM está embutido no programa (em um método convencional linguagem de programação, por exemplo, em Python). Este código externo é responsável por armazenar o estado e manter o modelo passo a passo. Tem algumas vantagens importantes: as linguagens de programação são adaptadas para isso, o tamanho do contexto disponível aumenta e as etapas não interferem umas nas outras. A chave para resolver um problema por meio do Programa LLM é a capacidade de decompor a solução de um problema em uma sequência de etapas mais simples. Esta abordagem difere de trabalhos anteriores, onde o modelo utilizou ferramentas externas como calculadoras ou interpretadores de código para manter o estado. Essa abordagem é boa porque é possível descrever uma tarefa complexa e abrangente dessa maneira, tornando mais fácil testar, depurar e avaliar a qualidade.

Além disso, não há interferência entre as etapas, facilitando o trabalho com o LLM. Os sistemas de perguntas e respostas também não são novos; eles já existiam muito antes dos LLMs. Como a tarefa de responder a perguntas é resolvida agora?

Os sites são atualizados com frequência, então um modelo congelado não é uma opção; ele ficará desatualizado rapidamente e não poderá responder a perguntas sobre novos produtos. O retreinamento constante do modelo para cada atualização não é uma opção realista: é caro e demorado. Em vez disso, as páginas de um site geralmente são indexadas, colocadas em algum tipo de banco de dados e frequentemente vetorizadas. A pedido de um usuário, os documentos relevantes são extraídos e enviados como um contexto para o LLM.

Em tal paradigma, o problema é naturalmente resolvido através do Programa LLM. Como um bônus, ele torna-se possível para implementar uma lógica multi-pass mais complexa que não se encaixaria totalmente no contexto.

testado no Conjunto de dados StrategyQA contendo problemas de classificação binária, cuja solução envolve raciocínio multidirecional. Como “A luz do sol penetra no lugar mais profundo do Mar Negro?”. Para responder, você precisa encontrar a profundidade máxima (2 km) e quão profunda a luz penetra na água (1 km) e, a seguir, tirar uma conclusão. Vamos dar uma olhada em outro exemplo de pergunta: “Aristóteles usava um laptop?” Esta questão não é tão direta e não segue explicitamente a sequência de etapas de raciocínio como “Aristóteles estava vivo quando o laptop foi inventado?” faz. O conjunto de dados se concentra em questões em que essa sequência está implícita. São apenas 2,780 questões no conjunto de dados, das quais apenas 918 possuem parágrafos com evidências que reforçam todas as etapas do raciocínio. No trabalho atual, limita-se a este subconjunto; caso contrário, teríamos que confiar que o LLM aprenderia alguns fatos durante o pré-treinamento.

O OPT-175B LLM, por padrão, não é muito bom em seguir instruções; não teve que afinar instruções nem sobre dados conversacionais. Para resolver o problema de resposta a perguntas com base em evidências, é dividido em um estágio de filtragem de dados e um estágio de pesquisa em árvore.

Na fase de filtragem, tendo uma pergunta, os desenvolvedores percorrem todos os parágrafos e selecionam os mais relevantes. Por exemplo, com um prompt de poucos tiros, peça ao LLM para responder (sim/não) se um determinado parágrafo é relevante para a pergunta feita. Testado em um subconjunto de 300 do StrategyQA, onde cada pergunta foi combinada com um parágrafo, relevante ou não, 50/50. OPT-175B e text-davinci-002 não possuem qualidade muito superior do que uma linha de base aleatória: até 56%. Quanto mais avançado 11B Tk-Instrução não é muito melhor em 61.6%.

Devido à má qualidade dessa abordagem, foi elaborada uma alternativa que considera o log-likelihood negativo médio (NLL) da questão em combinação com o parágrafo anterior do texto e, em seguida, classifica os resultados. Avaliado em um conjunto de dados em que, para cada pergunta, havia 100 parágrafos e apenas um era relevante (portanto, a adivinhação aleatória dá 1%). Obtivemos precisão top 1 em 79% e top 5 em 93%. Para esse cálculo, geralmente é necessário acessar o próprio modelo, o que nem sempre é feito na API.

Em seguida, vem a etapa de construção das cadeias produtivas. Isso é feito através de uma busca em uma árvore onde a pergunta é a raiz, e em cada nível, existem muitos parágrafos com possíveis evidências usadas como contexto para gerar a próxima etapa. Cada caminho através da árvore é uma cadeia de saída potencial. Não é realista tirar uma conclusão sobre todas as cadeias possíveis, portanto, todas as cadeias disponíveis são classificadas e a cadeia de classificação mais alta é expandida. Esta é uma variação da busca de feixe. O processo para quando uma resposta é feita ou o número máximo permitido de etapas é ultrapassado.

Os detalhes mais importantes são as duas estratégias de ranqueamento testadas para a etapa de busca em árvore. A primeira estratégia é baseada no NLL médio de toda a cadeia, enquanto a segunda estratégia analisa a diferença média do NLL com e sem parágrafo (P), com e sem pergunta (Q). Nas 918 perguntas disponíveis do StrategyQA, essa abordagem melhora significativamente a qualidade da resposta em relação à linha de base com CoT (60%); ambas as opções de pesquisa fornecem cerca de 66% (a estratégia com um delta ligeiramente superior). Se dados de ouro forem enviados, a qualidade fica em torno de 81%, que é o limite superior para OPT. Darklang parece estar indo para algum lugar, mas de uma maneira ligeiramente diferente.

O artigo é baseado no Telegram postar.

Leia mais sobre IA:

Tags:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.

Mais artigos

Damir Yalalov