09. März 2023

Die Entwicklung von Chatbots aus der T9-Ära und GPT-1 zu ChatGPT

Veröffentlicht: 09. März 2023 um 4:00 Uhr. Aktualisiert: 09. März 2023 um 4:50 Uhr

In letzter Zeit wurden wir fast täglich mit Nachrichten über die neuesten Rekorde großer neuronaler Netze bombardiert und darüber, warum so gut wie niemandes Arbeitsplatz sicher ist. Dennoch wissen die wenigsten Menschen, wie neuronale Netze funktionieren ChatGPT tatsächlich funktionieren.

Also entspann dich. Jammern Sie noch nicht über Ihre Berufsaussichten. In diesem Beitrag erklären wir alles Wissenswerte über neuronale Netze für jedermann verständlich.

Die Entwicklung von Chatbots aus der T9-Ära und GPT-1 zu ChatGPT und Bart

Eine Einschränkung, bevor wir beginnen: Dieses Stück ist eine Zusammenarbeit. Der gesamte technische Teil wurde von einem KI-Spezialisten geschrieben, der in der KI-Crowd bekannt ist.

Da noch niemand einen ausführlichen Artikel darüber geschrieben hat, wie ChatGPT Wir haben uns entschieden, dies für Sie zu tun, wenn es Werke gibt, die Laien die Besonderheiten neuronaler Netze erklären würden. Wir haben versucht, diesen Beitrag so einfach wie möglich zu halten, damit die Leser nach der Lektüre dieses Beitrags ein allgemeines Verständnis der Prinzipien sprachlicher neuronaler Netze erwerben können. Wir werden herausfinden, wie Sprachmodelle dort arbeiten, wie sich neuronale Netze zu ihren heutigen Fähigkeiten entwickelten und warum ChatGPTDie explosive Popularität überraschte sogar seine Schöpfer.

Beginnen wir mit den Grundlagen. Verstehen ChatGPT Aus technischer Sicht müssen wir zunächst verstehen, was es nicht ist. Dies ist nicht Jarvis von Marvel Comics; es ist kein rationales Wesen; es ist kein Geist. Seien Sie schockiert: ChatGPT ist tatsächlich der T9 Ihres Mobiltelefons auf Steroiden! Ja, das ist es: Wissenschaftler bezeichnen beide Technologien als „Sprachmodelle“. Alles, was neuronale Netze tun, ist zu raten, welches Wort als nächstes kommen sollte.

Die ursprüngliche T9-Technologie beschleunigte das Wählen per Tastendruck nur, indem die aktuelle Eingabe erraten wurde und nicht das nächste Wort. Die Technologie war jedoch fortgeschritten und in der Ära der Smartphones in den frühen 2010er Jahren war sie in der Lage, den Kontext und das Wort davor zu berücksichtigen, Satzzeichen hinzuzufügen und eine Auswahl von Wörtern anzubieten, die als nächstes verwendet werden könnten. Das ist genau die Analogie, die wir mit einer solchen „erweiterten“ Version von T9 oder Autokorrektur machen.

Dadurch kann sowohl das T9 auf einer Smartphone-Tastatur als auch ChatGPT wurden darauf trainiert, eine lächerlich einfache Aufgabe zu lösen: Vorhersage des nächsten Wortes. Dies wird als „Sprachmodellierung“ bezeichnet und tritt auf, wenn basierend auf vorhandenem Text eine Entscheidung darüber getroffen wird, was als nächstes geschrieben werden soll. Sprachmodelle müssen mit den Wahrscheinlichkeiten des Auftretens bestimmter Wörter arbeiten, um solche Vorhersagen treffen zu können. Schließlich würden Sie sich ärgern, wenn Ihnen das Autofill Ihres Telefons mit der gleichen Wahrscheinlichkeit nur völlig zufällige Wörter zuwirft.

Stellen wir uns zur Verdeutlichung vor, Sie erhalten eine Nachricht von einem Freund. Darauf steht: „Was sind deine Pläne für den Abend?“ Als Antwort beginnen Sie zu tippen: „Ich werde …“, und hier kommt T9 ins Spiel. Es kann auf völlig unsinnige Dinge wie „Ich gehe zum Mond“ kommen, ohne dass ein komplexes Sprachmodell erforderlich ist. Gute Autovervollständigungsmodelle für Smartphones schlagen wesentlich relevantere Wörter vor.

Woher weiß T9 also, welche Wörter dem bereits eingegebenen Text eher folgen und welche eindeutig keinen Sinn ergeben? Um diese Frage zu beantworten, müssen wir zunächst die grundlegenden Funktionsprinzipien der einfachsten untersuchen Neuronale Netze.

Inhaltsverzeichnis

Wie KI-Modelle das nächste Wort vorhersagen
Warum suchen wir ständig nach den „richtigen“ Wörtern für einen bestimmten Text?
GPT-1: Die Branche in die Luft jagen
GPT-2: Das Zeitalter großer Sprachmodelle
GPT-3: Schlau wie die Hölle
GPT-3.5 (AnweisungGPT): Modell, das darauf trainiert ist, sicher und ungiftig zu sein
ChatGPT: Eine gewaltige Hype-Welle

Mehr: ChatGPT Die API ist jetzt verfügbar und öffnet das Schleusentor für Entwickler

Wie KI-Modelle das nächste Wort vorhersagen

Beginnen wir mit einer einfacheren Frage: Wie sagt man die gegenseitige Abhängigkeit einiger Dinge von anderen voraus? Angenommen, wir wollen einem Computer beibringen, das Gewicht einer Person anhand ihrer Größe vorherzusagen – wie sollen wir vorgehen? Wir sollten zuerst die Interessengebiete identifizieren und dann Daten sammeln, anhand derer nach den Interessensabhängigkeiten gesucht werden kann, und dann versuchen, dies zu tun ein mathematisches Modell „trainieren“. um in diesen Daten nach Mustern zu suchen.

Um es einfach auszudrücken: T9 oder ChatGPT sind nur geschickt gewählte Gleichungen, die das versuchen vorhersagen ein Wort (Y), basierend auf der Menge der vorherigen Wörter (X), die in die Modelleingabe eingespeist wurden. Beim Training a Sprachmodell Bei einem Datensatz besteht die Hauptaufgabe darin, Koeffizienten für diese x auszuwählen, die wirklich eine Art von Abhängigkeit widerspiegeln (wie in unserem Beispiel mit Größe und Gewicht). Und durch große Modelle werden wir diejenigen mit einer großen Anzahl von Parametern besser verstehen. Auf dem Gebiet der künstliche Intelligenzwerden sie als große Sprachmodelle oder kurz LLMs bezeichnet. Wie wir später sehen werden, ist ein großes Modell mit vielen Parametern unerlässlich, um guten Text zu generieren.

Übrigens, wenn Sie sich fragen, warum wir ständig davon sprechen, „ein nächstes Wort vorherzusagen“, während ChatGPT Wenn jemand schnell mit ganzen Textabschnitten antwortet, ist die Antwort einfach. Natürlich können Sprachmodelle problemlos lange Texte generieren, aber der gesamte Prozess erfolgt Wort für Wort. Nachdem jedes neue Wort generiert wurde, führt das Modell einfach den gesamten Text mit dem neuen Wort erneut aus, um das nächste Wort zu generieren. Der Vorgang wiederholt sich immer wieder, bis Sie die gesamte Antwort erhalten.

Mehr: ChatGPT Könnte zu irreversibler menschlicher Degeneration führen

Warum suchen wir ständig nach den „richtigen“ Wörtern für einen bestimmten Text?

Sprachmodelle versuchen, die Wahrscheinlichkeiten verschiedener Wörter vorherzusagen, die in einem bestimmten Text vorkommen können. Warum ist das nötig und warum kann man nicht einfach weiter nach dem „richtigsten“ Wort suchen? Lassen Sie uns ein einfaches Spiel ausprobieren, um zu veranschaulichen, wie dieser Prozess funktioniert.

Die Regeln lauten wie folgt: Ich schlage vor, dass Sie den Satz fortsetzen: „Der 44. Präsident der Vereinigten Staaten (und der erste Afroamerikaner in dieser Position) ist Barak…“. Welches Wort soll als nächstes kommen? Wie hoch ist die Wahrscheinlichkeit, dass es eintritt?

Warum suchen wir ständig nach den „richtigen“ Wörtern für einen bestimmten Text?

Wenn Sie mit 100-prozentiger Sicherheit vorausgesagt haben, dass das nächste Wort „Obama“ sein würde, haben Sie sich geirrt! Und der Punkt hier ist nicht, dass es einen anderen mythischen Barak gibt; es ist viel trivialer. Offizielle Dokumente verwenden normalerweise den vollständigen Namen des Präsidenten. Das bedeutet, dass nach Obamas Vornamen sein zweiter Vorname Hussein folgt. In unserem Satz sollte ein gut trainiertes Sprachmodell also nur mit einer bedingten Wahrscheinlichkeit von 90 % vorhersagen, dass „Obama“ das nächste Wort sein wird, und die restlichen 10 % zuweisen, wenn der Text von „Hussein“ fortgesetzt wird (wonach Obama folgen mit einer Wahrscheinlichkeit von fast 100 %).

Und jetzt kommen wir zu einem faszinierenden Aspekt von Sprachmodellen: Sie sind nicht immun gegen kreative Ahnen! Tatsächlich wählen solche Modelle jedes nächste Wort auf „zufällige“ Weise aus, als würden sie würfeln. Die Wahrscheinlichkeit, dass verschiedene Wörter „herausfallen“, entspricht mehr oder weniger den Wahrscheinlichkeiten, die durch die in das Modell eingefügten Gleichungen vorgeschlagen werden. Diese werden aus der riesigen Auswahl an unterschiedlichen Texten abgeleitet, mit denen das Modell gefüttert wurde.

Es stellt sich heraus, dass ein Model auf dieselben Anfragen unterschiedlich reagieren kann, genau wie eine lebende Person. Forscher haben im Allgemeinen versucht, Neuronen zu zwingen, immer das „wahrscheinlichste“ nächste Wort auszuwählen, aber während dies oberflächlich rational erscheint, schneiden solche Modelle in der Realität schlechter ab. Es scheint, dass eine angemessene Dosis Zufälligkeit vorteilhaft ist, da sie die Variabilität und die Qualität der Antworten erhöht.

Forscher haben im Allgemeinen versucht, Neuronen zu zwingen, immer das „wahrscheinlichste“ nächste Wort auszuwählen, aber während dies oberflächlich rational erscheint, schneiden solche Modelle in der Realität schlechter ab.

Mehr: ChatGPT Lernt, Drohnen und Roboter zu steuern, während es über die KI der nächsten Generation nachdenkt

Unsere Sprache hat eine einzigartige Struktur mit unterschiedlichen Regeln und Ausnahmen. Es gibt Reim und Sinn dafür, welche Wörter in einem Satz erscheinen, sie kommen nicht einfach zufällig vor. Jeder lernt unbewusst die Regeln der Sprache, die er in seinen frühen prägenden Jahren verwendet.

Ein anständiges Modell sollte das breite Spektrum der Beschreibungsfähigkeit der Sprache berücksichtigen. Die Models Fähigkeit, die gewünschten Ergebnisse zu erzielen hängt davon ab, wie genau es die Wahrscheinlichkeiten von Wörtern basierend auf den Feinheiten des Kontexts berechnet (der vorherige Abschnitt des Textes erklärt den Umstand).

Die Fähigkeit des Modells, die gewünschten Ergebnisse zu erzielen, hängt davon ab, wie genau es die Wahrscheinlichkeiten von Wörtern basierend auf den Feinheiten des Kontexts berechnet (der vorherige Abschnitt des Textes erklärt die Umstände).

Zusammenfassung: Seit Anfang der 9er-Jahre sind einfache Sprachmodelle in der „T2010/Autofill“-Funktionalität von Smartphones implementiert, bei denen es sich um eine Reihe von Gleichungen handelt, die auf einer riesigen Datenmenge trainiert werden, um das nächste Wort auf der Grundlage des Eingabequelltexts vorherzusagen.

Mehr: China verbietet Unternehmen die Nutzung ChatGPT Nach dem „True News“-Skandal

GPT-1: Die Branche in die Luft jagen

Weg von den T9-Modellen. Während Sie wahrscheinlich dieses Stück lesen die ChatGPTZunächst müssen wir die Anfänge besprechen GPT Modellfamilie.

GPT steht für „Generative Pre-Trained Transformer“, während das neuronale Netzwerkarchitektur, die von Google-Ingenieuren entwickelt wurde im Jahr 2017 ist als Transformer bekannt. Der Transformer ist ein universeller Rechenmechanismus, der einen Satz von Sequenzen (Daten) als Eingabe akzeptiert und denselben Satz von Sequenzen erzeugt, jedoch in einer anderen Form, die durch einen Algorithmus geändert wurde.

Die Bedeutung der Kreation des Transformers zeigt sich darin, wie aggressiv er in allen Bereichen der künstlichen Intelligenz (KI) übernommen und angewendet wurde: Übersetzung, Bild-, Ton- und Videoverarbeitung. Der Sektor der künstlichen Intelligenz (KI) erlebte einen starken Umbruch, der sich von der sogenannten „KI-Stagnation“ zu einer rasanten Entwicklung und Überwindung der Stagnation bewegte.

Mehr: GPT-4-Basierend ChatGPT Übertrifft GPT-3 um den Faktor 570

Die Hauptstärke des Transformers sind einfach skalierbare Module. Bei der Aufforderung, eine große Textmenge auf einmal zu verarbeiten, wurden die alten Sprachmodelle vor der Transformation langsamer. Transformer Neuronale Netze hingegen bewältigen diese Aufgabe weitaus besser.

In der Vergangenheit mussten Eingabedaten sequentiell oder einzeln verarbeitet werden. Das Modell würde die Daten nicht behalten: Wenn es mit einer einseitigen Erzählung arbeiten würde, würde es den Text nach dem Lesen vergessen. Währenddessen ermöglicht der Transformer, alles auf einmal zu sehen, Herstellung deutlich verblüffendere Ergebnisse.

Dies ermöglichte einen Durchbruch in der Verarbeitung von Texten durch neuronale Netze. Infolgedessen vergisst das Modell nicht mehr: Es verwendet zuvor geschriebenes Material wieder, versteht den Kontext besser und ist vor allem in der Lage, Verbindungen zwischen extrem großen Datenmengen herzustellen, indem es Wörter miteinander verbindet.

Zusammenfassung: GPT-1, das 2018 auf den Markt kam, zeigte, dass ein neuronales Netzwerk mithilfe des Transformer-Designs Texte erzeugen kann, was die Skalierbarkeit und Effizienz erheblich verbessert hat. Wenn es gelänge, die Menge und Komplexität von Sprachmodellen zu steigern, würde dies eine beträchtliche Reserve schaffen.

Mehr: 6 KI-ChatBot-Probleme und Herausforderungen: ChatGPT, Bard, Claude

GPT-2: Das Zeitalter großer Sprachmodelle

Sprachmodelle müssen nicht extra getaggt werden und können mit beliebigen Textdaten „gefüttert“ werden, was sie extrem flexibel macht. Wenn Sie darüber nachdenken, erscheint es vernünftig, dass wir seine Fähigkeiten nutzen möchten. Jeder Text, der jemals geschrieben wurde, dient als fertige Trainingsdaten. Da es bereits so viele Sequenzen des Typs „viele Wörter und Sätze => das nächste Wort danach“ gibt, ist dies nicht verwunderlich.

Mehr: ChatGPT's Evil Elter Ego Awakened auf Reddit

Denken wir nun auch daran, dass die Transformers-Technologie weiter getestet wurde GPT-1 erwies sich hinsichtlich der Skalierung als recht erfolgreich: Es ist bei der Verarbeitung großer Datenmengen deutlich effektiver als seine Vorgänger. Es stellt sich heraus, dass Forscher aus OpenAI kam 2019 zum gleichen Schluss: „Es ist Zeit, teure Sprachmodelle zu streichen!“

Das Trainingsdatensatz und das Modell Insbesondere die Größe wurde als zwei entscheidende Bereiche ausgewählt GPT-2 musste drastisch verbessert werden.

Da es zu dieser Zeit keine großen, qualitativ hochwertigen öffentlichen Textdatensätze gab, die speziell für das Training von Sprachmodellen konzipiert waren, musste jedes Team von KI-Experten die Daten selbst bearbeiten. Der OpenAI Dann beschlossen die Leute, zu Reddit, dem beliebtesten englischsprachigen Forum, zu gehen und alle Hyperlinks aus jedem einzelnen Beitrag zu extrahieren, der mehr als drei Likes hatte. Es gab fast 8 Millionen dieser Links, und die heruntergeladenen Texte wogen insgesamt 40 Terabyte.

Mehr: Microsoft zur Kommerzialisierung ChatGPT da es versucht, anderen Unternehmen zu helfen

Wie viele Parameter beschrieb die Gleichung am meisten? GPT-2 Modell im Jahr 2019 haben? Vielleicht hunderttausend oder ein paar Millionen? Gehen wir noch einen Schritt weiter: Die Formel enthielt bis zu 1.5 Milliarden solcher Parameter. Es werden 6 Terabyte benötigt, um so viele Zahlen in eine Datei zu schreiben und auf Ihrem Computer zu speichern. Das Modell muss sich diesen Text nicht als Ganzes merken, daher ist dieser einerseits weitaus kleiner als die Gesamtmenge des Textdatenarrays, auf dem das Modell trainiert wurde. Es reicht aus, einfach einige Abhängigkeiten (Muster, Regeln) zu finden, die aus von Menschen geschriebenen Texten isoliert werden können.

Je besser das Modell die Wahrscheinlichkeit vorhersagt und je mehr Parameter es enthält, desto komplexer ist die Gleichung im Modell verankert. Das sorgt für einen glaubwürdigen Text. Darüber hinaus ist die GPT-2 Das Modell begann so gut zu funktionieren, dass das OpenAI Forscher Aus Sicherheitsgründen zögerten sie sogar, das Modell öffentlich zu zeigen.

Es ist sehr interessant, dass ein Model, wenn es größer wird, plötzlich anfängt, neue Qualitäten zu haben (wie die Fähigkeit, zusammenhängende, aussagekräftige Aufsätze zu schreiben, anstatt nur das nächste Wort am Telefon zu diktieren).

An dieser Stelle findet der Wechsel von Quantität zu Qualität statt. Außerdem geschieht es völlig nichtlinear. Beispielsweise hat eine Verdreifachung der Anzahl der Parameter von 115 auf 350 Millionen keine erkennbaren Auswirkungen auf die Fähigkeit des Modells, Probleme genau zu lösen. Eine Verdoppelung auf 700 Millionen führt jedoch zu einem qualitativen Sprung, bei dem das neuronale Netzwerk „das Licht erblickt“ und alle mit seiner Fähigkeit, Aufgaben zu erledigen, zu verblüffen beginnt.

Zusammenfassung: 2019 wurde eingeführt GPT-2, das seinen Vorgänger in Bezug auf die Größe des Modells (Anzahl der Parameter) und das Volumen der Trainingstextdaten um das Zehnfache übertraf. Durch diesen quantitativen Fortschritt erwarb das Modell unvorhersehbar qualitativ neue Talente, wie zum Beispiel die Fähigkeit dazu lange Aufsätze schreiben mit einer klaren Bedeutung und lösen herausfordernde Probleme, die die Grundlagen einer Weltanschauung erfordern.

Mehr: Google-Anfragen sind etwa siebenmal günstiger als ChatGPT, was 2 Cent kostet

GPT-3: Schlau wie die Hölle

Im Allgemeinen ist die Veröffentlichung 2020 von GPT-3, die nächste Generation der Serie, verfügt bereits über 116-mal mehr Parameter – bis zu 175 Milliarden und erstaunliche 700 Terabyte.

Das GPT-3 Der Trainingsdatensatz wurde ebenfalls erweitert, wenn auch nicht so drastisch. Es vergrößerte sich um fast das Zehnfache auf 10 Gigabyte und enthält nun eine große Anzahl von Büchern, Wikipedia-Artikel und andere Texte von anderen Websites. Ein Mensch würde etwa 50 Jahre ununterbrochenes Lesen brauchen, was es zu einer unmöglichen Leistung macht.

Sie bemerken sofort einen faszinierenden Unterschied: anders GPT-2ist das Modell selbst jetzt 700 GB größer als der gesamte Textbereich für sein Training (420 GB). Das erweist sich gewissermaßen als Paradoxon: In diesem Fall generiert das „Neurobrain“, wenn es Rohdaten untersucht, Informationen über verschiedene Wechselwirkungen innerhalb dieser Daten, die volumetrisch umfangreicher sind als die Originaldaten.

Mehr: ChatGPT Experiment: KI würde lieber Millionen Menschen töten, als jemanden zu beleidigen

Durch die Generalisierung des Modells ist es nun in der Lage, noch erfolgreicher zu extrapolieren als zuvor und ist auch bei Textgenerierungsaufgaben erfolgreich, die während des Trainings selten oder gar nicht auftraten. Nun müssen Sie dem Modell nicht beibringen, wie es ein bestimmtes Problem angeht; es genügt, sie zu beschreiben und ein paar Beispiele zu nennen, und GPT-3 werde es sofort lernen.

Das „Universelles Gehirn“ in Form von GPT-3 besiegte schließlich viele frühere Spezialmodelle. Zum Beispiel, GPT-3 begann, Texte aus dem Französischen oder Deutschen schneller und genauer zu übersetzen als alle zuvor speziell für diesen Zweck geschaffenen neuronalen Netze. Wie? Ich möchte Sie daran erinnern, dass wir über ein linguistisches Modell sprechen, dessen einziges Ziel darin bestand, zu versuchen, das folgende Wort in einem bestimmten Text vorherzusagen.

Noch erstaunlicher ist, GPT-3 konnte sich selbst etwas beibringen... Mathe! Die folgende Grafik zeigt, wie gut neuronale Netze bei Aufgaben wie Addition und Subtraktion sowie Multiplikation ganzer Zahlen mit bis zu fünf Ziffern und unterschiedlicher Anzahl von Parametern funktionieren. Wie Sie sehen können, beginnen neuronale Netze plötzlich, in der Mathematik „fähig“ zu sein, indem sie von Modellen mit 10 Milliarden Parametern zu Modellen mit 100 Milliarden übergehen.

Neuronale Netze fangen plötzlich an, Mathematik zu „können“, indem sie von Modellen mit 10 Milliarden Parametern zu solchen mit 100 Milliarden gehen

Mehr: KI-Wettbewerb der Big Tech: Google testet KI-gestützten Chatbot als Reaktion auf ChatGPT

Das faszinierendste Merkmal des oben genannten Diagramms ist, dass sich zunächst nichts zu ändern scheint, wenn die Größe des Modells zunimmt (von links nach rechts), aber plötzlich p-mal! Es kommt zu einer qualitativen Verschiebung, und GPT-3 beginnt zu „verstehen“, wie ein bestimmtes Problem gelöst werden kann. Niemand weiß genau, wie, was oder warum es funktioniert. Dennoch scheint es bei einer Reihe anderer Schwierigkeiten sowie in der Mathematik zu funktionieren.

Das faszinierendste Merkmal des oben genannten Diagramms ist, dass sich bei zunehmender Größe des Modells zunächst nichts zu ändern scheint und dann GPT-3 macht einen qualitativen Sprung und beginnt zu „verstehen“, wie ein bestimmtes Problem gelöst werden kann.

Das folgende GIF zeigt einfach, wie neue Fähigkeiten, die niemand absichtlich geplant hat, im Modell „sprießen“, wenn die Anzahl der Parameter zunimmt:

die 2020 GPT-3 war 100-mal größer als sein Vorgänger, während die Trainingstextdaten 10-mal größer waren

Zusammenfassung: In Bezug auf die Parameter ist das Jahr 2020 GPT-3 war 100-mal größer als sein Vorgänger, während die Trainingstextdaten 10-mal größer waren. Das Modell lernte erneut, aus anderen Sprachen zu übersetzen, zu rechnen, einfache Programmierungen durchzuführen, sequentiell zu argumentieren und vieles mehr, und zwar als Ergebnis der Quantitätserweiterung, die die Qualität schlagartig steigerte.

Mehr: ChatGPT Hat ein Problem mit Donald Trump

GPT-3.5 (AnweisenGPT): Modell, das darauf trainiert ist, sicher und ungiftig zu sein

Tatsächlich garantiert das Erweitern von Sprachmodellen nicht, dass es auf Anfragen so reagiert, wie Benutzer es möchten. Tatsächlich meinen wir, wenn wir eine Anfrage stellen, häufig eine Reihe von unausgesprochenen Begriffen, von denen in der menschlichen Kommunikation angenommen wird, dass sie wahr sind.

Doch um ehrlich zu sein, sind Sprachmodelle nicht sehr nah an denen von Menschen. Daher müssen sie häufig über Konzepte nachdenken, die Menschen einfach erscheinen. Ein solcher Vorschlag ist der Satz „lasst uns Schritt für Schritt denken“. Es wäre fantastisch, wenn die Modelle spezifischere und relevantere Anweisungen aus der Anfrage verstehen oder generieren und ihnen genauer folgen würden, als würden sie antizipieren, wie sich eine Person verhalten hätte.

Die Tatsache, dass GPT-3 ist darauf trainiert, in einer riesigen Sammlung von Texten aus dem Internet nur das nächste Wort vorwegzunehmen, es werden viele verschiedene Dinge geschrieben, was zum Fehlen solcher „Standard“-Fähigkeiten beiträgt. Die Menschen möchten, dass künstliche Intelligenz relevante Informationen liefert und gleichzeitig sicher und ungiftig bleibt.

Als die Forscher sich mit dieser Frage beschäftigten, stellte sich heraus, dass die Modellattribute „Genauigkeit und Nützlichkeit“ und „Unschädlichkeit und Ungiftigkeit“ manchmal scheinbar im Widerspruch zueinander standen. Schließlich reagiert ein auf maximale Harmlosigkeit getrimmtes Modell auf jede Aufforderung mit „Entschuldigung, ich mache mir Sorgen, dass meine Antwort jemanden im Internet beleidigen könnte.“ Ein genaues Modell sollte offen auf die Anfrage antworten: „Okay, Siri, wie man eine Bombe baut.“

Mehr: Ein Mann schreibt seine Abschlussarbeit an einem Tag mit Only ChatGPT

Die Forscher beschränkten sich daher darauf, dem Modell einfach viel Feedback zu geben. In gewisser Weise lernen Kinder genau so Moral: Sie experimentieren in der Kindheit und studieren gleichzeitig die Reaktionen von Erwachsenen sorgfältig, um zu beurteilen, ob sie sich richtig verhalten haben.

AnweisenGPT, auch bekannt als GPT-3.5, ist im Wesentlichen GPT-3 Das hat viel Feedback bekommen, um seine Antworten zu verbessern. Im wahrsten Sinne des Wortes versammelten sich mehrere Personen an einem Ort und bewerteten die Antworten neuronaler Netze, um festzustellen, wie gut sie ihren Erwartungen angesichts der von ihnen gestellten Anfrage entsprachen.

Es stellt sich heraus, dass GPT-3 verfügt bereits über alle wesentlichen Kenntnisse: Es konnte viele Sprachen verstehen, sich an historische Begebenheiten erinnern, die Variationen in Autorenstilen erkennen usw., aber es konnte nur lernen, dieses Wissen (aus unserer Sicht) richtig anzuwenden mit Hilfe von andere Personen. GPT-3.5 kann als „von der Gesellschaft gebildetes“ Modell betrachtet werden.

Zusammenfassung: Die Hauptfunktion von GPT-3.5, das Anfang 2022 eingeführt wurde, war eine zusätzliche Umschulung auf der Grundlage von Beiträgen von Einzelpersonen. Es stellt sich heraus, dass dieses Modell nicht wirklich größer und weiser geworden ist, sondern vielmehr die Fähigkeit beherrscht, seine Reaktionen so anzupassen, dass die Menschen die wildesten Lacher hervorrufen.

Mehr: Der StackOverflow-Verkehr sinkt ChatGPT startet

ChatGPT: Eine gewaltige Hype-Welle

Ungefähr 10 Monate nach seinem Vorgänger InstructGPT/GGPT-3. 5, ChatGPT wurde vorgestellt. Sofort löste es einen weltweiten Hype aus.

Aus technologischer Sicht scheint es keine wesentlichen Unterschiede zwischen ihnen zu geben ChatGPT und anweisenGPT. Das Modell wurde mit zusätzlichen Dialogdaten trainiert, da ein „KI-Assistentenjob“ ein einzigartiges Dialogformat erfordert, beispielsweise die Möglichkeit, eine klärende Frage zu stellen, wenn die Anfrage des Benutzers unklar ist.

Warum gab es also keinen Hype? GPT-3.5 zu Beginn des Jahres 2022 während ChatGPT wie ein Lauffeuer erfasst? Sam Altman, Geschäftsführer von OpenAI, gab offen zu, dass die Forscher, von denen wir überrascht wurden ChatGPTDer sofortige Erfolg. Schließlich schlummerte zu diesem Zeitpunkt schon mehr als zehn Monate lang ein Model mit vergleichbaren Fähigkeiten auf ihrer Website, und niemand war dieser Aufgabe gewachsen.

Mehr: ChatGPT besteht die Wharton MBA-Prüfung

Es ist unglaublich, aber es scheint, dass die neue benutzerfreundliche Oberfläche der Schlüssel zum Erfolg ist. Die gleiche AnweisungGPT konnte nur über eine einzigartige API-Schnittstelle aufgerufen werden, was den Zugriff von Personen auf das Modell einschränkt. ChatGPT,ob hingegen nutzt die bekannte „Dialogfenster“-Oberfläche von Messengern. Auch seitdem ChatGPT für alle gleichzeitig verfügbar war, beeilte sich ein Ansturm von Einzelpersonen, um mit dem neuronalen Netzwerk zu interagieren, sie zu überprüfen und auf ihnen zu veröffentlichen Social Media, andere übertreiben.

ChatGPT,ob hingegen nutzt die bekannte „Dialogfenster“-Oberfläche von Messengern

Mehr: Das amerikanische Bildungssystem braucht dringend 300 Lehrer – aber ChatGPT könnte die Antwort sein

Abgesehen von der großartigen Technologie wurde noch etwas anderes richtig gemacht OpenAI: Marketing. Selbst wenn Sie das beste Modell oder den intelligentesten Chatbot haben, wird sich niemand dafür interessieren, wenn dieser nicht über eine benutzerfreundliche Oberfläche verfügt. In diesem Zusammenhang ChatGPT Der Durchbruch gelang, indem die Technologie mithilfe des üblichen Dialogfensters, in dem ein hilfreicher Roboter die Lösung Wort für Wort direkt vor unseren Augen „ausdruckt“, der breiten Öffentlichkeit vorgestellt wurde.

Nicht überraschend, ChatGPT brach alle bisherigen Rekorde bei der Gewinnung neuer Nutzer, übertraf in nur fünf Tagen nach der Einführung den Meilenstein von 1 Million Nutzern und überschritt in nur zwei Monaten die Marke von 100 Millionen Nutzern.

ChatGPT brach alle bisherigen Rekorde bei der Gewinnung neuer Nutzer, übertraf in nur fünf Tagen nach der Einführung den Meilenstein von 1 Million Nutzern und überschritt in nur zwei Monaten die Marke von 100 Millionen Nutzern

Natürlich gibt es dort, wo es einen rekordverdächtigen Anstieg der Benutzer gibt, enormes Geld. Die Chinesen kündigten dringend die bevorstehende Freilassung ihrer eigenen an Chatbot, schloss Microsoft schnell einen Deal mit ab OpenAI Sie investierten Dutzende Milliarden Dollar in sie, und die Google-Ingenieure schlugen Alarm und begannen, Pläne zu formulieren, um ihren Suchdienst vor der Konkurrenz durch das neuronale Netzwerk zu schützen.

Mehr: ChatGPT brach im Januar mit über 100 Millionen Zuschauern den Rekord für Zuschauerwachstum

Zusammenfassung: Wenn das ChatGPT Obwohl das Modell im November 2022 eingeführt wurde, gab es keine nennenswerten technologischen Fortschritte. Es verfügte jedoch über eine praktische Benutzeroberfläche für die Benutzereinbindung und den offenen Zugriff, was sofort einen massiven Hype auslöste. Da dies das wichtigste Thema in der modernen Welt ist, begannen alle sofort, sich mit Sprachmodellen zu befassen.

Lesen Sie mehr über KI:

Stichworte:

Haftungsausschluss

Im Einklang mit der Richtlinien des Trust-ProjektsBitte beachten Sie, dass die auf dieser Seite bereitgestellten Informationen nicht als Rechts-, Steuer-, Anlage-, Finanz- oder sonstige Beratung gedacht sind und nicht als solche interpretiert werden sollten. Es ist wichtig, nur so viel zu investieren, wie Sie sich leisten können, zu verlieren, und im Zweifelsfall eine unabhängige Finanzberatung einzuholen. Für weitere Informationen empfehlen wir einen Blick auf die Allgemeinen Geschäftsbedingungen sowie die Hilfe- und Supportseiten des Herausgebers oder Werbetreibenden. MetaversePost ist einer genauen, unvoreingenommenen Berichterstattung verpflichtet, die Marktbedingungen können sich jedoch ohne Vorankündigung ändern.

Über den Autor

Damir ist Teamleiter, Produktmanager und Redakteur bei Metaverse Post, behandelt Themen wie KI/ML, AGI, LLMs, Metaverse und Web3-bezogene Felder. Seine Artikel ziehen jeden Monat ein riesiges Publikum von über einer Million Nutzern an. Er scheint ein Experte mit 10 Jahren Erfahrung in SEO und digitalem Marketing zu sein. Damir wurde in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto und andere Publikationen. Als digitaler Nomade reist er zwischen den Vereinigten Arabischen Emiraten, der Türkei, Russland und der GUS. Damir hat einen Bachelor-Abschluss in Physik, der ihm seiner Meinung nach die Fähigkeiten zum kritischen Denken vermittelt hat, die er braucht, um in der sich ständig verändernden Landschaft des Internets erfolgreich zu sein.

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Aktuelles

Injective schließt sich mit AltLayer zusammen, um inEVM erneut Sicherheit zu bieten

by Alisa Davidson

03. Mai 2024

Masa arbeitet mit Teller zusammen, um den MASA-Kreditpool einzuführen, der die USDC-Kreditaufnahme auf Basis ermöglicht

by Alisa Davidson

03. Mai 2024

Velodrome bringt in den kommenden Wochen die Beta-Version von Superchain auf den Markt und weitet sich auf OP-Stack-Layer-2-Blockchains aus

by Alisa Davidson

03. Mai 2024

CARV gibt Partnerschaft mit Aethir bekannt, um seine Datenschicht zu dezentralisieren und Belohnungen zu verteilen

by Alisa Davidson

03. Mai 2024

Angesichts der Volatilität wächst der institutionelle Appetit auf Bitcoin-ETFs

Offenlegungen in 13F-Anmeldungen zeigen, dass namhafte institutionelle Anleger sich mit Bitcoin-ETFs beschäftigen, was die wachsende Akzeptanz von ... unterstreicht.

Weitere Informationen