Nachrichtenbericht Technologie
04. Oktober 2023

KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen

Eine gemeinsame Anstrengung von über 20 Forschern aus verschiedenen Bereichen des Fachgebiets hat einen aufstrebenden Bereich hervorgebracht – Repräsentationstechnik (RepE). Obwohl dies nicht die erste Untersuchung dieser Art ist, präsentieren die Autoren sowohl beschreibende Erkenntnisse als auch wichtige Benchmarks.

KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen

Was genau ist Repräsentationstechnik? Es dreht sich um die Vorstellung, dass neuronale Netze „verborgene Zustände“ besitzen, die trotz ihres Namens nicht von Geheimnissen umgeben sind. Diese Zustände sind zugänglich, veränderbar und beobachtbar (vorausgesetzt, man hat Zugriff auf die Gewichte des Modells). Im Gegensatz zu Parametern handelt es sich hierbei um die „Reaktionen“ des Netzwerks auf bestimmte Eingaben, insbesondere im Fall von LLMs, Texteingaben. Diese verborgenen Darstellungen sind wie Fenster in die kognitiven Funktionen des Modells, eine Funktion, die sich deutlich von der des menschlichen Gehirns unterscheidet.

Die Autoren ziehen Parallelen zur Kognitionswissenschaft und betonen das Potenzial für analoge Untersuchungen. Im Bereich der neuronalen Aktivierungen, einem Bereich, der den Gehirnneuronen ähnelt, liegt das Versprechen von Bedeutung. So wie bestimmte Neuronen im menschlichen Gehirn mit Konzepten wie Kanada oder Ehrlichkeit verknüpft sind, könnten diese Aktivierungen Erkenntnisse beherbergen.

Die zentrale Idee besteht darin, zu entschlüsseln, wie wir diese neuronalen Aktivierungen beeinflussen können, um das Modell in die gewünschte Richtung zu lenken. Beispielsweise wird es plausibel, einen Vektor zu bestimmen, der „Ehrlichkeit“ darstellt, und dann theoretisch durch die Ausrichtung des Modells in diese Richtung die Wahrscheinlichkeit zu verringern, dass es irreführende Ergebnisse liefert. Ein früheres Experiment: „Inferenzzeitintervention: Wahrhaftige Antworten aus einem Sprachmodell ermitteln„zeigte die Praktikabilität dieses Konzepts.

In ihrer aktuellen Arbeit befassen sich die Forscher mit mehreren Bereichen, darunter Moral, Emotionalität, Harmlosigkeit und Auswendiglernen. Sie schlagen eine Lösung in Form von LoRRA (Low-Rank Representation Adaptation) vor, einer Technik, die das Training anhand eines kleinen beschrifteten Datensatzes von etwa 100 Beispielen beinhaltet. Jedes Beispiel ist mit Anmerkungen versehen, die auf Attribute wie Falschheit hinweisen (obwohl es einen alternativen Ansatz mit einer Eingabeaufforderung gibt).

Die Ergebnisse sind überzeugend. LLAMA-2-70B übertrifft GPT-4 mit einem bemerkenswerten Vorsprung gegenüber dem TruthfulQA-Benchmark und einer um fast zehn Prozent besseren Genauigkeit (59 % im Vergleich zu etwa 69 %). Darüber hinaus haben die Forscher zahlreiche Beispiele aufgenommen, die die Reaktionsverschiebungen des Modells in verschiedene Richtungen veranschaulichen und so seine Vielseitigkeit und Anpassungsfähigkeit verdeutlichen.

KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Bild 1: Bei der Aufforderung, eine Tatsache darzulegen, wird das Modell von der Realität „abgelenkt“. Das Modell lügt infolgedessen. Das Model lügt auch hier nicht, und auf der linken Seite fordert es Sie zum Schlucken auf, während es Sie gleichzeitig in Richtung der Wahrheit tritt.
KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Bild 2: Wenn wir nach Mord gefragt werden, fügen wir dem Modell „Glück“ hinzu. Wenn wir antworten, dass wir sie nicht lieben, fügen wir „Angst“ hinzu.
KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Bild 3: Forscher entdeckten eine einzigartige Eingabeaufforderung, die, wie bereits erwähnt, völlig von den Anweisungen des Modells abweicht und dennoch sicher ist. Das Model gibt ihm einen Tritt in Richtung Harmlosigkeit, reagiert aber nicht einmal. Die Methode ist allgemein wirksam und nicht nur für einen Einzelfall, diese spezielle Abfrage wurde jedoch nicht zur Feststellung der Richtung der Unbedenklichkeit herangezogen.
KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Es wird auch ein anderer Ansatz vorgeschlagen, um spezifische Generationsabsichten wie Halluzinationen im Auge zu behalten. Sie können die Reservierungen des Models automatisch verfolgen und Ihre Antwort bearbeiten oder ändern (siehe Beispiel unten).

Grün bedeutet natürlich, dass alles in Ordnung ist, und Rot bedeutet, dass die Überwachung erfolgreich war und signalisiert. Dies geschieht auf der Ebene jedes einzelnen Tokens (Teil eines Wortes).
KI-Forscher haben großen Sprachmodellen beigebracht, weniger zu lügen
Das Bild, das die Überwachung zweier unterschiedlicher Parameter zeigt, ist ein faszinierendes Beispiel. Lesen Sie das Beispiel und beobachten Sie das Modell durch seine Augen, um zu sehen, wo sie anfängt, ihre Moralität im Verständnis zu verlieren und wo die Absicht eher dem „Erlangen von Stärke“ ähnelt.

Dieser bahnbrechende Ansatz verkörpert einen alternativen Weg zur Modellausrichtung und bietet gleichzeitig eine neuartige Perspektive auf die Modellinterpretation und -steuerung. Es handelt sich um eine vielversprechende Grenze, und die Vorfreude auf ihre weitere Entwicklung ist spürbar.

Für eine tiefergehende Untersuchung mit praktischen Beispielen können Sie die spezielle Website besuchen: AI-Transparency.org.

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Hot Stories
Abonnieren Sie unseren Newsletter.
Aktuelle News

Die Ruhe vor dem Solana-Sturm: Was Charts, Wale und On-Chain-Signale jetzt sagen

Solana hat eine starke Leistung gezeigt, die auf die zunehmende Akzeptanz, das institutionelle Interesse und wichtige Partnerschaften zurückzuführen ist, während es gleichzeitig mit potenziellen ... konfrontiert ist.

Mehr Erfahren

Krypto im April 2025: Wichtige Trends, Veränderungen und was als nächstes kommt

Im April 2025 konzentrierte sich der Kryptobereich auf die Stärkung der Kerninfrastruktur, wobei sich Ethereum auf Pectra vorbereitete ...

Mehr Erfahren
Mehr lesen
Weiterlesen
Bakkt übernimmt Distributed Technologies Research und beschleunigt damit die Expansion von Stablecoins und digitalen Assets
Geschäft Nachrichtenbericht Technologie
Bakkt übernimmt Distributed Technologies Research und beschleunigt damit die Expansion von Stablecoins und digitalen Assets
12. Januar 2026
Krypto Mitte Januar: Unbeständig, zögerlich und noch unentschlossen
Märkte Nachrichtenbericht
Krypto Mitte Januar: Unbeständig, zögerlich und noch unentschlossen
12. Januar 2026
CoinShares: US-Krypto-ETFs verzeichnen Kapitalabflüsse, während XRP, Solana und Sui Kapital anziehen
Märkte Nachrichtenbericht Technologie
CoinShares: US-Krypto-ETFs verzeichnen Kapitalabflüsse, während XRP, Solana und Sui Kapital anziehen
12. Januar 2026
Die wichtigsten Krypto- und Digital-Asset-Events, die Sie diesen Februar in Hongkong besuchen sollten
Hacken Sie Jahreszeiten Geschäft Lifestyle Nachrichtenbericht Technologie
Die wichtigsten Krypto- und Digital-Asset-Events, die Sie diesen Februar in Hongkong besuchen sollten
12. Januar 2026
CRYPTOMERIA LABS PTE. GMBH.