Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos


Um esforço colaborativo envolvendo mais de 20 pesquisadores de diversos cantos da área deu origem a um domínio florescente – engenharia de representação (RepE). Embora esta não seja a primeira exploração deste tipo, os autores estão apresentando insights descritivos e estabelecendo referências cruciais.

Então, o que exatamente é engenharia de representação? Ela gira em torno da noção de que as redes neurais possuem “estados ocultos”, que, apesar do nome, não estão envoltos em segredo. Esses estados são acessíveis, modificáveis e observáveis (desde que se tenha acesso aos pesos do modelo). Ao contrário dos parâmetros, estas são as “reações” da rede a entradas específicas, particularmente no caso de LLMs, entradas textuais. Estas representações ocultas são como janelas para o funcionamento cognitivo do modelo, uma característica distintamente diferente do cérebro humano.
Traçando paralelos com a ciência cognitiva, os autores destacam o potencial para explorações análogas. No domínio das ativações neurais, um domínio análogo aos neurônios cerebrais, reside a promessa de significado. Assim como certos neurônios do cérebro humano estão ligados a conceitos como Canadá ou honestidade, essas ativações podem abrigar insights.
A ideia central aqui é decifrar como podemos influenciar essas ativações neurais para orientar o modelo nas direções desejadas. Por exemplo, torna-se plausível identificar um vector que representa a “honestidade” e então, teoricamente, ao empurrar o modelo nesta direcção, reduzir a probabilidade de produzir resultados enganosos. Um experimento anterior, “Intervenção no tempo de inferência: extraindo respostas verdadeiras de um modelo de linguagem”, demonstrou a praticidade desse conceito.
Em seu trabalho atual, os pesquisadores investigam diversos domínios, incluindo moralidade, emotividade, inocuidade e memorização. Eles propõem uma solução na forma de LoRRA (Low-Rank Representation Adaptation), uma técnica que envolve o treinamento em um pequeno conjunto de dados rotulado de aproximadamente 100 exemplos. Cada exemplo é anotado, indicando atributos como falsidade (embora exista uma abordagem alternativa que emprega um prompt).
Os resultados são convincentes. LLAMA-2-70B supera GPT-4 por uma margem notável no benchmark TruthfulQA, alcançando uma precisão quase dez por cento melhor (59% em comparação com aproximadamente 69%). Além disso, os pesquisadores incorporaram vários exemplos que mostram as mudanças de resposta do modelo em várias direções, esclarecendo sua versatilidade e adaptabilidade.




Verde, claro, denota que está tudo em ordem, e vermelho denota que o monitoramento foi bem sucedido e está sinalizando. Isto é feito no nível de cada token individual (parte de uma palavra).

Esta abordagem pioneira incorpora um caminho alternativo para o alinhamento do modelo, ao mesmo tempo que oferece uma nova perspectiva sobre a interpretação e controle do modelo. É uma fronteira promissora e a expectativa pela sua evolução contínua é palpável.
Para uma exploração mais profunda com exemplos práticos, você pode visitar o site dedicado: AI-Transparency.org.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigos

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.