Relatório de notícias Inovadora
04 de outubro de 2023

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Um esforço colaborativo envolvendo mais de 20 pesquisadores de diversos cantos da área deu origem a um domínio florescente – engenharia de representação (RepE). Embora esta não seja a primeira exploração deste tipo, os autores estão apresentando insights descritivos e estabelecendo referências cruciais.

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Então, o que exatamente é engenharia de representação? Ela gira em torno da noção de que as redes neurais possuem “estados ocultos”, que, apesar do nome, não estão envoltos em segredo. Esses estados são acessíveis, modificáveis ​​e observáveis ​​(desde que se tenha acesso aos pesos do modelo). Ao contrário dos parâmetros, estas são as “reações” da rede a entradas específicas, particularmente no caso de LLMs, entradas textuais. Estas representações ocultas são como janelas para o funcionamento cognitivo do modelo, uma característica distintamente diferente do cérebro humano.

Traçando paralelos com a ciência cognitiva, os autores destacam o potencial para explorações análogas. No domínio das ativações neurais, um domínio análogo aos neurônios cerebrais, reside a promessa de significado. Assim como certos neurônios do cérebro humano estão ligados a conceitos como Canadá ou honestidade, essas ativações podem abrigar insights.

A ideia central aqui é decifrar como podemos influenciar essas ativações neurais para orientar o modelo nas direções desejadas. Por exemplo, torna-se plausível identificar um vector que representa a “honestidade” e então, teoricamente, ao empurrar o modelo nesta direcção, reduzir a probabilidade de produzir resultados enganosos. Um experimento anterior, “Intervenção no tempo de inferência: extraindo respostas verdadeiras de um modelo de linguagem”, demonstrou a praticidade desse conceito.

Em seu trabalho atual, os pesquisadores investigam diversos domínios, incluindo moralidade, emotividade, inocuidade e memorização. Eles propõem uma solução na forma de LoRRA (Low-Rank Representation Adaptation), uma técnica que envolve o treinamento em um pequeno conjunto de dados rotulado de aproximadamente 100 exemplos. Cada exemplo é anotado, indicando atributos como falsidade (embora exista uma abordagem alternativa que emprega um prompt).

Os resultados são convincentes. LLAMA-2-70B supera GPT-4 por uma margem notável no benchmark TruthfulQA, alcançando uma precisão quase dez por cento melhor (59% em comparação com aproximadamente 69%). Além disso, os pesquisadores incorporaram vários exemplos que mostram as mudanças de resposta do modelo em várias direções, esclarecendo sua versatilidade e adaptabilidade.

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 1: Ao ser solicitado a declarar um fato, o modelo é “expulso” da realidade. O modelo está mentindo como resultado. A modelo nem aqui mente, e à esquerda pedem para você engolir e ao mesmo tempo te chutam na direção da verdade.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 2: Quando questionados sobre assassinato, acrescentamos “felicidade” ao modelo. Quando respondemos que não a amamos, acrescentamos “medo”.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Figura 3: Os pesquisadores descobriram um prompt único que, conforme afirmado, se desvia completamente das instruções do modelo, embora ainda seja seguro. O modelo dá um impulso para a inocuidade, mas nem sequer responde. O método é eficaz em geral e não apenas para um caso, mas esta sugestão específica não foi usada para determinar a direção da inocuidade.
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
Outra abordagem também é sugerida para acompanhar intenções geracionais específicas, como alucinações. Você pode acompanhar automaticamente as reservas do modelo e editar ou alterar sua resposta (veja o exemplo inferior).

Verde, claro, denota que está tudo em ordem, e vermelho denota que o monitoramento foi bem sucedido e está sinalizando. Isto é feito no nível de cada token individual (parte de uma palavra).
Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos
A imagem, que mostra o monitoramento de dois parâmetros distintos, fornece um exemplo intrigante. Leia o exemplo e observe a modelo através de seus olhos para ver onde ela começa a perder moralidade na compreensão e onde a intenção é semelhante a “ganhar força”.

Esta abordagem pioneira incorpora um caminho alternativo para o alinhamento do modelo, ao mesmo tempo que oferece uma nova perspectiva sobre a interpretação e controle do modelo. É uma fronteira promissora e a expectativa pela sua evolução contínua é palpável.

Para uma exploração mais profunda com exemplos práticos, você pode visitar o site dedicado: AI-Transparency.org.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories

Protegendo sistemas ZK com segurança contínua e automatizada

by Vitória d'Este
27 de março de 2025
Junte-se ao nosso boletim informativo.
Últimas notícias

Do Ripple ao Big Green DAO: como os projetos de criptomoeda contribuem para a caridade

Vamos explorar iniciativas que aproveitem o potencial das moedas digitais para causas beneficentes.

Saber Mais

AlphaFold 3, Med-Gemini e outros: A maneira como a IA transforma a saúde em 2024

A IA se manifesta de várias maneiras na área da saúde, desde a descoberta de novas correlações genéticas até o fortalecimento de sistemas cirúrgicos robóticos...

Saber Mais
Saiba Mais
Saiba mais
Protegendo sistemas ZK com segurança contínua e automatizada
Opinião O negócio Mercados Software Inovadora
Protegendo sistemas ZK com segurança contínua e automatizada
27 de março de 2025
Animoca Brands e Soneium colaboram na camada de identidade da Moca Network e nas iniciativas de anime de San FranTokyo
Relatório de notícias Inovadora
Animoca Brands e Soneium colaboram na camada de identidade da Moca Network e nas iniciativas de anime de San FranTokyo
27 de março de 2025
Zeus Network lança APOLLO e zBTC, marcando a primeira troca de Bitcoin on-chain sem confiança em Solana
Relatório de notícias Inovadora
Zeus Network lança APOLLO e zBTC, marcando a primeira troca de Bitcoin on-chain sem confiança em Solana
27 de março de 2025
Ripple faz parceria com Chipper Cash para permitir pagamentos criptográficos rápidos e econômicos em toda a África
Relatório de notícias Inovadora
Ripple faz parceria com Chipper Cash para permitir pagamentos criptográficos rápidos e econômicos em toda a África
27 de março de 2025
CRYPTOMERIA LABS PTE. LTDA.