Nachrichtenbericht Technologie
15. Mai 2023

LLM-Programme: Der neue Weg zur Feinabstimmung neuronaler Modelle in komplexen Situationen

In Kürze

Die Autoren schlagen einen alternativen Weg namens LLM-Programme vor, der als Entwicklung des kontextbezogenen Lernens betrachtet werden kann.

Der Schlüssel zur Lösung eines Problems durch das LLM-Programm ist die Fähigkeit, die Lösung eines Problems in eine Folge einfacherer Schritte zu zerlegen.

Es gibt zwei Hauptbereiche der LLM-Anpassung: Feinabstimmung (oder zusätzliches Training) des vorab trainierten Basismodells und kontextbezogenes Lernen. Die Feinabstimmung erfordert erhebliche Rechenressourcen, Datenerfassung und Infrastruktur, um diese durchzuführen und dann fein abgestimmte Modelle zu hosten. Beim kontextbezogenen Lernen geht es hingegen darum, die richtige Eingabeaufforderung mit Beispielen zur Lösung des Problems zusammenzustellen, wie zum Beispiel Chain-of-Thought (CoT). Es gibt jedoch einige Schwierigkeiten, wie zum Beispiel die begrenzte Größe des Textes, der an das Modell übermittelt werden kann, und die Tatsache, dass in einer komplexen Eingabeaufforderung mit mehreren Durchgängen die Schritte einander beeinträchtigen können und das Modell durch etwas abgelenkt werden kann Das sollte im Moment nicht abgelenkt werden. Die Autoren schlagen einen alternativen Weg namens vor LLM-Programme, was als Entwicklung des kontextbezogenen Lernens betrachtet werden kann.

LLM-Programme: Der neue Weg zur Feinabstimmung neuronaler Modelle in komplexen Situationen
Empfohlen: Prompt Engineering Ultimate Guide 2023

LLM ist in das Programm integriert (in herkömmlicher Form). Programmiersprache, zum Beispiel in Python). Dieser externe Code ist für die Speicherung des Zustands und die schrittweise Pflege des Modells verantwortlich. Es hat einige große Vorteile: Programmiersprachen werden dafür angepasst, die Größe des verfügbaren Kontexts wächst und die Schritte überlagern sich nicht gegenseitig. Der Schlüssel zur Lösung eines Problems durch das LLM-Programm ist die Fähigkeit, die Lösung eines Problems in eine Folge einfacherer Schritte zu zerlegen. Dieser Ansatz unterscheidet sich von früheren Arbeiten, bei denen das Modell externe Tools wie Taschenrechner oder andere verwendete Code-Interpreter den Staat aufrechtzuerhalten. Dieser Ansatz ist gut, weil es möglich ist, eine komplexe und weitreichende Aufgabe auf diese Weise zu beschreiben, was das Testen, Debuggen und Bewerten der Qualität erleichtert.

Darüber hinaus gibt es keine Interferenzen zwischen den Schritten, was die Arbeit mit LLM erleichtert. Auch Frage-Antwort-Systeme sind nicht neu; Sie existierten schon lange vor LLMs. Wie wird nun die Aufgabe der Beantwortung von Fragen gelöst?

Websites werden häufig aktualisiert, daher a gefrorenes Modell ist keine Option; Es wird schnell veraltet sein und Fragen zu neuen Produkten nicht mehr beantworten können. Eine ständige Neuschulung des Modells bei jedem Update ist keine realistische Option: Es ist teuer und zeitaufwändig. Stattdessen werden die Seiten einer Website normalerweise indiziert, in einer Art Datenbank abgelegt und häufig vektorisiert. Auf Wunsch eines Benutzers werden relevante Dokumente abgerufen und als Kontext an LLM gesendet.

In einem solchen Paradigma wird das Problem natürlich durch das LLM-Programm gelöst. Als Bonus ist es wird möglich um eine komplexere Multi-Pass-Logik zu implementieren, die nicht vollständig in den Kontext passen würde.

Getestet auf der StrategyQA-Datensatz Enthält binäre Klassifizierungsprobleme, deren Lösung Mehrweg-Argumentation erfordert. Wie „Dringt das Sonnenlicht bis in die tiefsten Tiefen des Schwarzen Meeres?“. Zur Beantwortung müssen Sie die maximale Tiefe (2 km) und die Tiefe, in die das Licht ins Wasser eindringt (1 km), ermitteln und dann eine Schlussfolgerung ziehen. Schauen wir uns eine weitere Beispielfrage an: „Hat Aristoteles einen Laptop benutzt?“ Diese Frage ist nicht so einfach und folgt nicht explizit der Reihenfolge der Argumentationsschritte wie „War Aristoteles am Leben, als der Laptop erfunden wurde?“ tut. Der Datensatz konzentriert sich auf Fragen, bei denen eine solche Sequenz implizit ist. Der Datensatz enthält nur 2,780 Fragen, von denen nur 918 Absätze mit Beweisen enthalten, die alle Schritte der Argumentation untermauern. In der aktuellen Arbeit beschränkt es sich auf diese Teilmenge; andernfalls müssten wir uns darauf verlassen, dass LLM während des Vortrainings einige Fakten lernt.

Der OPT-175B LLM ist standardmäßig nicht sehr gut darin, Anweisungen zu befolgen; Es mussten weder Anweisungen noch Konversationsdaten verfeinert werden. Um das evidenzgestützte Frage-Antwort-Problem zu lösen, ist es in eine Datenfilterungsphase und eine Baumsuchphase unterteilt.

Wenn Entwickler in der Filterphase eine Frage haben, gehen sie alle Absätze durch und wählen die relevantesten aus. Bitten Sie den LLM beispielsweise mit einer Eingabeaufforderung mit wenigen Schüssen zu antworten (Ja/Nein), ob ein bestimmter Absatz für die gestellte Frage relevant ist. Getestet auf einer 300 Teilmenge von StrategyQA, wobei jeder Frage ein Absatz zugeordnet wurde, ob relevant oder nicht, 50/50. OPT-175B und text-davinci-002 haben kein viel hochwertiger als eine zufällige Basislinie: bis zu 56 %. Je fortgeschrittener 11B Tk-Instruktion ist mit 61.6 % nicht viel besser.

Aufgrund der schlechten Qualität dieses Ansatzes wurde eine Alternative zusammengestellt, die die durchschnittliche negative Log-Likelihood (NLL) der Frage in Kombination mit dem vorhergehenden Textabsatz berücksichtigt und dann die Ergebnisse in eine Rangfolge bringt. Ausgewertet anhand eines Datensatzes, bei dem es für jede Frage 100 Absätze gab und nur einer relevant war (eine zufällige Schätzung ergibt also 1 %). Wir erreichten eine Top-1-Genauigkeit von 79 % und eine Top-5-Genauigkeit von 93 %. Für diese Berechnung benötigen Sie in der Regel Zugriff auf das Modell selbst, was nicht immer in der API erfolgt.

Als nächstes folgt die Phase des Aufbaus von Produktionsketten. Dies geschieht durch eine Suche in einem Baum, in dem die Frage die Wurzel ist, und auf jeder Ebene gibt es viele Absätze mit möglichen Beweisen, die als Kontext zur Generierung des nächsten Schritts dienen. Jeder Pfad durch den Baum ist eine potenzielle Ausgabekette. Es ist unrealistisch, eine Schlussfolgerung über alle möglichen Ketten zu ziehen, daher werden alle verfügbaren Ketten in eine Rangfolge gebracht und die Kette mit dem höchsten Rang erweitert. Dies ist eine Variante der Strahlsuche. Der Prozess stoppt, wenn eine Antwort erfolgt oder die maximal zulässige Anzahl von Schritten verstrichen ist.

Die wichtigsten Details sind die beiden getesteten Ranking-Strategien für den Baumsuchschritt. Die erste Strategie basiert auf der durchschnittlichen NLL der gesamten Kette, während die zweite Strategie die durchschnittliche Differenz der NLL mit und ohne Absatz (P), mit und ohne Frage (Q) betrachtet. Bei den verfügbaren 918 Fragen von StrategyQA verbessert dieser Ansatz die Antwortqualität im Vergleich zum Ausgangswert mit CoT deutlich (60 %); Beide Suchoptionen ergeben rund 66 % (die Strategie mit etwas höherem Delta). Wenn goldene Fakten eingereicht werden, liegt die Qualität bei etwa 81 %, was die Obergrenze für OPT darstellt. Darklang scheint irgendwo dorthin zu gelangen, aber auf eine etwas andere Art und Weise.

Der Artikel basiert auf dem Telegram Post.

Lesen Sie mehr über KI:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Weitere Artikel
Damir Jalalow
Damir Jalalow

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein. 

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen

Der Tag der Verurteilung steht vor der Tür: Das Schicksal von CZ bleibt ungewiss, während das US-Gericht den Plädoyer des DOJ prüft

Changpeng Zhao steht heute vor einer Verurteilung vor einem US-Gericht in Seattle.

Weitere Informationen
Treten Sie unserer innovativen Tech-Community bei
Weiterlesen
Lesen Sie weiter
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
Geschäft Nachrichtenbericht Technologie
Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten
3. Mai 2024
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
Märkte Nachrichtenbericht Technologie
Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht
3. Mai 2024
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
Märkte Nachrichtenbericht Technologie
Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus
3. Mai 2024
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
Geschäft Nachrichtenbericht Technologie
CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen
3. Mai 2024