Relatório de notícias Tecnologia
04 de outubro de 2023

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Um esforço colaborativo envolvendo mais de 20 pesquisadores de diversos cantos da área deu origem a um domínio florescente – engenharia de representação (RepE). Embora esta não seja a primeira exploração deste tipo, os autores estão apresentando insights descritivos e estabelecendo referências cruciais.

Pesquisadores de IA ensinaram grandes modelos de linguagem a mentir menos

Então, o que exatamente é engenharia de representação? Ela gira em torno da noção de que as redes neurais possuem “estados ocultos”, que, apesar do nome, não estão envoltos em segredo. Esses estados são acessíveis, modificáveis ​​e observáveis ​​(desde que se tenha acesso aos pesos do modelo). Ao contrário dos parâmetros, estas são as “reações” da rede a entradas específicas, particularmente no caso de LLMs, entradas textuais. Estas representações ocultas são como janelas para o funcionamento cognitivo do modelo, uma característica distintamente diferente do cérebro humano.

Traçando paralelos com a ciência cognitiva, os autores destacam o potencial para explorações análogas. No domínio das ativações neurais, um domínio análogo aos neurônios cerebrais, reside a promessa de significado. Assim como certos neurônios do cérebro humano estão ligados a conceitos como Canadá ou honestidade, essas ativações podem abrigar insights.

A ideia central aqui é decifrar como podemos influenciar essas ativações neurais para orientar o modelo nas direções desejadas. Por exemplo, torna-se plausível identificar um vector que representa a “honestidade” e então, teoricamente, ao empurrar o modelo nesta direcção, reduzir a probabilidade de produzir resultados enganosos. Um experimento anterior, “Intervenção no tempo de inferência: extraindo respostas verdadeiras de um modelo de linguagem”, demonstrou a praticidade desse conceito.

Em seu trabalho atual, os pesquisadores investigam diversos domínios, incluindo moralidade, emotividade, inocuidade e memorização. Eles propõem uma solução na forma de LoRRA (Low-Rank Representation Adaptation), uma técnica que envolve o treinamento em um pequeno conjunto de dados rotulado de aproximadamente 100 exemplos. Cada exemplo é anotado, indicando atributos como falsidade (embora exista uma abordagem alternativa que emprega um prompt).

Os resultados são convincentes. LLAMA-2-70B supera GPT-4 por uma margem notável no benchmark TruthfulQA, alcançando uma precisão quase dez por cento melhor (59% em comparação com aproximadamente 69%). Além disso, os pesquisadores incorporaram vários exemplos que mostram as mudanças de resposta do modelo em várias direções, esclarecendo sua versatilidade e adaptabilidade.

Figura 1: Ao ser solicitado a declarar um fato, o modelo é “expulso” da realidade. O modelo está mentindo como resultado. A modelo nem aqui mente, e à esquerda pedem para você engolir e ao mesmo tempo te chutam na direção da verdade.
Figura 2: Quando questionados sobre assassinato, acrescentamos “felicidade” ao modelo. Quando respondemos que não a amamos, acrescentamos “medo”.
Figura 3: Os pesquisadores descobriram um prompt único que, conforme afirmado, se desvia completamente das instruções do modelo, embora ainda seja seguro. O modelo dá um impulso para a inocuidade, mas nem sequer responde. O método é eficaz em geral e não apenas para um caso, mas esta sugestão específica não foi usada para determinar a direção da inocuidade.
Outra abordagem também é sugerida para acompanhar intenções geracionais específicas, como alucinações. Você pode acompanhar automaticamente as reservas do modelo e editar ou alterar sua resposta (veja o exemplo inferior).

Verde, claro, denota que está tudo em ordem, e vermelho denota que o monitoramento foi bem sucedido e está sinalizando. Isto é feito no nível de cada token individual (parte de uma palavra).
A imagem, que mostra o monitoramento de dois parâmetros distintos, fornece um exemplo intrigante. Leia o exemplo e observe a modelo através de seus olhos para ver onde ela começa a perder moralidade na compreensão e onde a intenção é semelhante a “ganhar força”.

Esta abordagem pioneira incorpora um caminho alternativo para o alinhamento do modelo, ao mesmo tempo que oferece uma nova perspectiva sobre a interpretação e controle do modelo. É uma fronteira promissora e a expectativa pela sua evolução contínua é palpável.

Para uma exploração mais profunda com exemplos práticos, você pode visitar o site dedicado: AI-Transparency.org.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
Mercados Relatório de notícias Tecnologia
Nexo inicia 'The Hunt' para recompensar usuários com US$ 12 milhões em tokens NEXO por se envolverem com seu ecossistema
8 de maio de 2024
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
Mercados Software Histórias e resenhas Tecnologia
Revolut X Exchange da Revolut atrai comerciantes de criptografia com taxas zero de fabricante e análises avançadas
8 de maio de 2024
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
O negócio Mercados Relatório de notícias
Plataforma de negociação de criptografia BitMEX estreia negociação de opções com 0 taxas e incentivos em dinheiro
8 de maio de 2024
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
Relatório de notícias Tecnologia
Lisk faz transição oficial para Ethereum Layer 2 e revela Core v4.0.6
8 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.