KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Eine gemeinsame Anstrengung von über 20 Forschern aus verschiedenen Bereichen des Fachgebiets hat einen aufstrebenden Bereich hervorgebracht – Repräsentationstechnik (RepE). Obwohl dies nicht die erste Untersuchung dieser Art ist, präsentieren die Autoren sowohl beschreibende Erkenntnisse als auch wichtige Benchmarks.
Was genau ist Repräsentationstechnik? Es dreht sich um die Vorstellung, dass neuronale Netze „verborgene Zustände“ besitzen, die trotz ihres Namens nicht von Geheimnissen umgeben sind. Diese Zustände sind zugänglich, veränderbar und beobachtbar (vorausgesetzt, man hat Zugriff auf die Gewichte des Modells). Im Gegensatz zu Parametern handelt es sich hierbei um die „Reaktionen“ des Netzwerks auf bestimmte Eingaben, insbesondere im Fall von LLMs, Texteingaben. Diese verborgenen Darstellungen sind wie Fenster in die kognitiven Funktionen des Modells, eine Funktion, die sich deutlich von der des menschlichen Gehirns unterscheidet.
Die Autoren ziehen Parallelen zur Kognitionswissenschaft und betonen das Potenzial für analoge Untersuchungen. Im Bereich der neuronalen Aktivierungen, einem Bereich, der den Gehirnneuronen ähnelt, liegt das Versprechen von Bedeutung. So wie bestimmte Neuronen im menschlichen Gehirn mit Konzepten wie Kanada oder Ehrlichkeit verknüpft sind, könnten diese Aktivierungen Erkenntnisse beherbergen.
Die zentrale Idee besteht darin, zu entschlüsseln, wie wir diese neuronalen Aktivierungen beeinflussen können, um das Modell in die gewünschte Richtung zu lenken. Beispielsweise wird es plausibel, einen Vektor zu bestimmen, der „Ehrlichkeit“ darstellt, und dann theoretisch durch die Ausrichtung des Modells in diese Richtung die Wahrscheinlichkeit zu verringern, dass es irreführende Ergebnisse liefert. Ein früheres Experiment: „Inferenzzeitintervention: Wahrhaftige Antworten aus einem Sprachmodell ermitteln„zeigte die Praktikabilität dieses Konzepts.
In ihrer aktuellen Arbeit befassen sich die Forscher mit mehreren Bereichen, darunter Moral, Emotionalität, Harmlosigkeit und Auswendiglernen. Sie schlagen eine Lösung in Form von LoRRA (Low-Rank Representation Adaptation) vor, einer Technik, die das Training anhand eines kleinen beschrifteten Datensatzes von etwa 100 Beispielen beinhaltet. Jedes Beispiel ist mit Anmerkungen versehen, die auf Attribute wie Falschheit hinweisen (obwohl es einen alternativen Ansatz mit einer Eingabeaufforderung gibt).
Die Ergebnisse sind überzeugend. LLAMA-2-70B übertrifft GPT-4 mit einem bemerkenswerten Vorsprung gegenüber dem TruthfulQA-Benchmark und einer um fast zehn Prozent besseren Genauigkeit (59 % im Vergleich zu etwa 69 %). Darüber hinaus haben die Forscher zahlreiche Beispiele aufgenommen, die die Reaktionsverschiebungen des Modells in verschiedene Richtungen veranschaulichen und so seine Vielseitigkeit und Anpassungsfähigkeit verdeutlichen.

Grün bedeutet natürlich, dass alles in Ordnung ist, und Rot bedeutet, dass die Überwachung erfolgreich war und signalisiert. Dies geschieht auf der Ebene jedes einzelnen Tokens (Teil eines Wortes).
Dieser bahnbrechende Ansatz verkörpert einen alternativen Weg zur Modellausrichtung und bietet gleichzeitig eine neuartige Perspektive auf die Modellinterpretation und -steuerung. Es handelt sich um eine vielversprechende Grenze, und die Vorfreude auf ihre weitere Entwicklung ist spürbar.
Für eine tiefergehende Untersuchung mit praktischen Beispielen können Sie die spezielle Website besuchen: AI-Transparency.org.
Haftungsausschluss
Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.
Über den Autor
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.
Weitere Artikel
Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.