Relatório de notícias Inovadora
04 de outubro de 2023

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Um esforço colaborativo envolvendo mais de 20 pesquisadores de diversos cantos da área deu origem a um domínio florescente – engenharia de representação (RepE). Embora esta não seja a primeira exploração deste tipo, os autores estão apresentando insights descritivos e estabelecendo referências cruciais.

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Então, o que exatamente é engenharia de representação? Ela gira em torno da noção de que as redes neurais possuem “estados ocultos”, que, apesar do nome, não estão envoltos em segredo. Esses estados são acessíveis, modificáveis ​​e observáveis ​​(desde que se tenha acesso aos pesos do modelo). Ao contrário dos parâmetros, estas são as “reações” da rede a entradas específicas, particularmente no caso de LLMs, entradas textuais. Estas representações ocultas são como janelas para o funcionamento cognitivo do modelo, uma característica distintamente diferente do cérebro humano.

Traçando paralelos com a ciência cognitiva, os autores destacam o potencial para explorações análogas. No domínio das ativações neurais, um domínio análogo aos neurônios cerebrais, reside a promessa de significado. Assim como certos neurônios do cérebro humano estão ligados a conceitos como Canadá ou honestidade, essas ativações podem abrigar insights.

A ideia central aqui é decifrar como podemos influenciar essas ativações neurais para orientar o modelo nas direções desejadas. Por exemplo, torna-se plausível identificar um vector que representa a “honestidade” e então, teoricamente, ao empurrar o modelo nesta direcção, reduzir a probabilidade de produzir resultados enganosos. Um experimento anterior, “Intervenção no tempo de inferência: extraindo respostas verdadeiras de um modelo de linguagem”, demonstrou a praticidade desse conceito.

Em seu trabalho atual, os pesquisadores investigam diversos domínios, incluindo moralidade, emotividade, inocuidade e memorização. Eles propõem uma solução na forma de LoRRA (Low-Rank Representation Adaptation), uma técnica que envolve o treinamento em um pequeno conjunto de dados rotulado de aproximadamente 100 exemplos. Cada exemplo é anotado, indicando atributos como falsidade (embora exista uma abordagem alternativa que emprega um prompt).

Os resultados são convincentes. LLAMA-2-70B supera GPT-4 por uma margem notável no benchmark TruthfulQA, alcançando uma precisão quase dez por cento melhor (59% em comparação com aproximadamente 69%). Além disso, os pesquisadores incorporaram vários exemplos que mostram as mudanças de resposta do modelo em várias direções, esclarecendo sua versatilidade e adaptabilidade.

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 1: Ao ser solicitado a declarar um fato, o modelo é “expulso” da realidade. O modelo está mentindo como resultado. A modelo nem aqui mente, e à esquerda pedem para você engolir e ao mesmo tempo te chutam na direção da verdade.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 2: Quando questionados sobre assassinato, acrescentamos “felicidade” ao modelo. Quando respondemos que não a amamos, acrescentamos “medo”.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 3: Os pesquisadores descobriram um prompt único que, conforme afirmado, se desvia completamente das instruções do modelo, embora ainda seja seguro. O modelo dá um impulso para a inocuidade, mas nem sequer responde. O método é eficaz em geral e não apenas para um caso, mas esta sugestão específica não foi usada para determinar a direção da inocuidade.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Outra abordagem também é sugerida para acompanhar intenções geracionais específicas, como alucinações. Você pode acompanhar automaticamente as reservas do modelo e editar ou alterar sua resposta (veja o exemplo inferior).

Verde, claro, denota que está tudo em ordem, e vermelho denota que o monitoramento foi bem sucedido e está sinalizando. Isto é feito no nível de cada token individual (parte de uma palavra).
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
A imagem, que mostra o monitoramento de dois parâmetros distintos, fornece um exemplo intrigante. Leia o exemplo e observe a modelo através de seus olhos para ver onde ela começa a perder moralidade na compreensão e onde a intenção é semelhante a “ganhar força”.

Esta abordagem pioneira incorpora um caminho alternativo para o alinhamento do modelo, ao mesmo tempo que oferece uma nova perspectiva sobre a interpretação e controle do modelo. É uma fronteira promissora e a expectativa pela sua evolução contínua é palpável.

Para uma exploração mais profunda com exemplos práticos, você pode visitar o site dedicado: AI-Transparency.org.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

A Calmaria Antes da Tempestade de Solana: O Que os Gráficos, Baleias e Sinais On-Chain Estão Dizendo Agora

Solana demonstrou um forte desempenho, impulsionado pela crescente adoção, interesse institucional e parcerias importantes, ao mesmo tempo em que enfrenta potenciais...

Saber Mais

Criptomoedas em abril de 2025: Principais tendências, mudanças e o que vem a seguir

Em abril de 2025, o espaço criptográfico se concentrou no fortalecimento da infraestrutura principal, com o Ethereum se preparando para o Pectra...

Saber Mais
Saiba Mais
Ler mais
Hyperliquid, Tether e Selini Capital se unem à Dreamcash para oferecer negociação on-chain de alta liquidez para usuários de varejo.
Relatório de notícias Inovadora
Hyperliquid, Tether e Selini Capital se unem à Dreamcash para oferecer negociação on-chain de alta liquidez para usuários de varejo.
16 de janeiro de 2026
Resumo das parcerias no setor de criptomoedas: Polygon, Stripe e Dow Jones marcam a segunda semana de janeiro
Relatório de notícias Inovadora
Resumo das parcerias no setor de criptomoedas: Polygon, Stripe e Dow Jones marcam a segunda semana de janeiro
16 de janeiro de 2026
OpenAI Lidera o investimento inicial na Merge Labs para impulsionar interfaces cérebro-computador baseadas em inteligência artificial.
O negócio Relatório de notícias Inovadora
OpenAI Lidera o investimento inicial na Merge Labs para impulsionar interfaces cérebro-computador baseadas em inteligência artificial.
16 de janeiro de 2026
Os cartões de criptomoedas continuam sendo estratégicos à medida que a adoção de stablecoins se expande, afirma a New Artemis. DeFi Estudo
O negócio Estilo de vida Relatório de notícias Inovadora
Os cartões de criptomoedas continuam sendo estratégicos à medida que a adoção de stablecoins se expande, afirma a New Artemis. DeFi Estudo
16 de janeiro de 2026
CRYPTOMERIA LABS PTE. LTDA.