Nieuwsverslag Technologie
09 maart 2023

De evolutie van chatbots uit het T9-tijdperk en GPT-1 naar ChatGPT

De laatste tijd worden we bijna dagelijks gebombardeerd met nieuwsberichten over de nieuwste records die zijn verbroken door grootschalige neurale netwerken en waarom vrijwel niemands baan veilig is. Toch weten maar heel weinig mensen hoe neurale netwerken werken ChatGPT daadwerkelijk opereren.

Dus, ontspan. Klaag nog niet over uw vooruitzichten op een baan. In dit bericht leggen we alles uit wat er te weten valt over neurale netwerken op een manier die iedereen kan begrijpen.

De evolutie van chatbots uit het T9-tijdperk en GPT-1 naar ChatGPT en Bart

Een voorbehoud voordat we beginnen: dit stuk is een samenwerking. Het hele technische gedeelte is geschreven door een AI-specialist die welbekend is bij de AI-crowd.

Aangezien niemand nog een diepgaand stuk heeft geschreven over hoe ChatGPT werken die in lekentaal de ins en outs van neurale netwerken zouden uitleggen, hebben we besloten dit voor u te doen. We hebben geprobeerd dit bericht zo eenvoudig mogelijk te houden, zodat lezers dit bericht kunnen lezen met een algemeen begrip van de principes van neurale taalnetwerken. We zullen onderzoeken hoe taalmodellen werk daar, hoe neurale netwerken zijn geëvolueerd om hun huidige capaciteiten te bezitten, en waarom ChatGPT's explosieve populariteit verraste zelfs de makers ervan.

Laten we beginnen met de basis. Begrijpen ChatGPT vanuit technisch oogpunt moeten we eerst begrijpen wat het niet is. Dit is niet Jarvis van Marvel Comics; het is geen rationeel wezen; het is geen geest. Bereid je voor om geschokt te zijn: ChatGPT is eigenlijk de T9 van je mobiel op steroïden! Ja, dat is het: wetenschappers verwijzen naar beide technologieën als "taalmodellen." Het enige dat neurale netwerken doen, is raden welk woord hierna moet komen.

De oorspronkelijke T9-technologie versnelde het kiezen van telefoons met drukknoppen alleen door de huidige invoer te raden in plaats van het volgende woord. De technologie ging echter vooruit en tegen het tijdperk van smartphones in de vroege jaren 2010 was het in staat om de context en het woord ervoor te overwegen, interpunctie toe te voegen en een selectie van woorden aan te bieden die daarna zouden kunnen komen. Dat is precies de analogie die we maken met zo'n "geavanceerde" versie van T9 of autocorrectie.

Hierdoor kan zowel de T9 op een smartphone-toetsenbord als ChatGPT zijn getraind om een ​​belachelijk eenvoudige taak op te lossen: het volgende woord voorspellen. Dit staat bekend als 'taalmodellering' en doet zich voor wanneer een beslissing wordt genomen over wat er vervolgens moet worden geschreven op basis van bestaande tekst. Om dergelijke voorspellingen te kunnen doen, moeten taalmodellen werken op basis van de waarschijnlijkheid van het voorkomen van specifieke woorden. Je zou tenslotte geïrriteerd zijn als het automatisch aanvullen van je telefoon je met dezelfde waarschijnlijkheid volledig willekeurige woorden zou geven.

Laten we ons voor de duidelijkheid voorstellen dat u een bericht ontvangt van een vriend. Er staat: “Wat zijn je plannen voor vanavond?” Als reactie begin je te typen: "Ik ga naar ...", en hier komt T9 om de hoek kijken. Het kan volslagen onzinnige dingen opleveren, zoals "Ik ga naar de maan", geen ingewikkeld taalmodel vereist. Goede modellen voor automatisch aanvullen van smartphones suggereren veel relevantere woorden.

Dus, hoe weet T9 welke woorden waarschijnlijker de reeds getypte tekst zullen volgen en wat duidelijk niet logisch is? Om deze vraag te beantwoorden, moeten we eerst de fundamentele werkingsprincipes van de eenvoudigste onderzoeken neurale netwerken.

Meer: ChatGPT API is nu beschikbaar, opent de sluisdeur voor ontwikkelaars

Hoe AI-modellen het volgende woord voorspellen

Laten we beginnen met een eenvoudigere vraag: hoe voorspel je de onderlinge afhankelijkheid van sommige dingen van andere? Stel dat we een computer willen leren om iemands gewicht te voorspellen op basis van hun lengte - hoe moeten we dat doen? We moeten eerst de interessegebieden identificeren en vervolgens gegevens verzamelen waarop we kunnen zoeken naar de afhankelijkheden van interesse en vervolgens proberen om "train" een wiskundig model om patronen binnen deze gegevens te zoeken.

Hoe AI-modellen het volgende woord voorspellen

Simpel gezegd, T9 of ChatGPT zijn slechts slim gekozen vergelijkingen die dat proberen voorspellen een woord (Y) op basis van de reeks voorgaande woorden (X) die in de modelinvoer zijn ingevoerd. Bij het trainen van A taalmodel op een dataset is de belangrijkste taak het selecteren van coëfficiënten voor deze x-en die echt een soort afhankelijkheid weerspiegelen (zoals in ons voorbeeld met lengte en gewicht). En door grote modellen zullen we die met een groot aantal parameters beter begrijpen. Op het gebied van kunstmatige intelligentie, worden ze grote taalmodellen genoemd, of kortweg LLM's. Zoals we later zullen zien, is een groot model met veel parameters essentieel voor het genereren van goede tekst.

Trouwens, als je je afvraagt ​​waarom we het constant hebben over "een volgend woord voorspellen" terwijl ChatGPT reageert snel met hele alinea's tekst, het antwoord is simpel. Natuurlijk kunnen taalmodellen zonder problemen lange teksten genereren, maar het hele proces is woord voor woord. Nadat elk nieuw woord is gegenereerd, voert het model gewoon alle tekst opnieuw uit met het nieuwe woord om het volgende woord te genereren. Het proces wordt keer op keer herhaald totdat u het volledige antwoord krijgt.

Meer: ChatGPT Kan onomkeerbare menselijke degeneratie veroorzaken

Waarom proberen we steeds de 'juiste' woorden voor een bepaalde tekst te vinden?

Taalmodellen proberen de waarschijnlijkheid te voorspellen van verschillende woorden die in een bepaalde tekst kunnen voorkomen. Waarom is dit nodig, en waarom kun je niet gewoon blijven zoeken naar het "meest correcte" woord? Laten we een eenvoudig spel proberen om te illustreren hoe dit proces werkt.

De regels zijn als volgt: ik stel voor dat u de zin voortzet: "De 44e president van de Verenigde Staten (en de eerste Afro-Amerikaan in deze positie) is Barak ...". Welk woord moet hierna komen? Hoe groot is de kans dat het gebeurt?

Waarom proberen we steeds de 'juiste' woorden voor een bepaalde tekst te vinden?

Als je met 100% zekerheid had voorspeld dat het volgende woord 'Obama' zou zijn, had je het mis! En het punt hier is niet dat er nog een mythische Barak is; het is veel trivialer. Officiële documenten gebruiken meestal de volledige naam van de president. Dit betekent dat wat volgt op Obama's voornaam zijn middelste naam zou zijn, Hussein. Dus in onze zin zou een goed getraind taalmodel moeten voorspellen dat "Obama" het volgende woord zal zijn, alleen met een voorwaardelijke kans van 90% en de resterende 10% toewijzen als de tekst wordt voortgezet door "Hussein" (waarna Obama zal volgen met een waarschijnlijkheid van bijna 100%).

En nu komen we bij een intrigerend aspect van taalmodellen: ze zijn niet immuun voor creatieve trekjes! Bij het genereren van elk volgend woord kiezen dergelijke modellen het in feite op een "willekeurige" manier, alsof ze met een dobbelsteen gooien. De kans dat verschillende woorden "uitvallen" komen min of meer overeen met de kansen die worden gesuggereerd door de vergelijkingen die in het model zijn ingevoegd. Deze zijn ontleend aan de enorme hoeveelheid verschillende teksten die het model heeft gekregen.

Het blijkt dat een model anders kan reageren op dezelfde verzoeken, net als een levend persoon. Onderzoekers hebben over het algemeen geprobeerd neuronen te dwingen altijd het "meest waarschijnlijke" volgende woord te selecteren, maar hoewel dit op het eerste gezicht rationeel lijkt, presteren dergelijke modellen in werkelijkheid slechter. Het lijkt erop dat een behoorlijke dosis willekeur voordelig is omdat het de variabiliteit en de kwaliteit van de antwoorden vergroot.

Onderzoekers hebben over het algemeen geprobeerd neuronen te dwingen altijd het "meest waarschijnlijke" volgende woord te selecteren, maar hoewel dit op het eerste gezicht rationeel lijkt, presteren dergelijke modellen in werkelijkheid slechter.
Meer: ChatGPT Leert drones en robots te besturen terwijl het nadenkt over de volgende generatie AI

Onze taal heeft een unieke structuur met verschillende regels en uitzonderingen. Er is rijm en reden voor welke woorden in een zin voorkomen, ze komen niet zomaar willekeurig voor. Iedereen leert onbewust de regels van de taal die ze gebruiken tijdens hun vroege vormende jaren.

Een fatsoenlijk model moet rekening houden met het brede scala aan beschrijvende eigenschappen van de taal. De modellen vermogen om de gewenste resultaten te produceren hangt af van hoe precies het de waarschijnlijkheid van woorden berekent op basis van de subtiliteiten van de context (het vorige gedeelte van de tekst legt de omstandigheid uit).

Het vermogen van het model om de gewenste resultaten te produceren, hangt af van hoe nauwkeurig het de waarschijnlijkheid van woorden berekent op basis van de subtiliteiten van de context (het vorige deel van de tekst legt de omstandigheid uit).

Samenvatting: Eenvoudige taalmodellen, een reeks vergelijkingen die zijn getraind op een enorme hoeveelheid gegevens om het volgende woord te voorspellen op basis van de invoerbrontekst, zijn sinds het begin van de jaren 9 geïmplementeerd in de "T2010/Autofill" -functionaliteit van smartphones.

Meer: China verbiedt bedrijven om te gebruiken ChatGPT Na het "True News"-schandaal

GPT-1: De industrie opblazen

Laten we weggaan van T9-modellen. Terwijl je dit stuk waarschijnlijk aan het lezen bent leren over ChatGPT, eerst moeten we het begin van de GPT modelfamilie.

GPT staat voor ‘generatieve, vooraf getrainde transformator’, terwijl de neurale netwerkarchitectuur ontwikkeld door Google-technici in 2017 staat bekend als de Transformer. De Transformer is een universeel computermechanisme dat een reeks reeksen (gegevens) als invoer accepteert en dezelfde reeks reeksen produceert, maar in een andere vorm die door een algoritme is gewijzigd.

Het belang van de creatie van de Transformer kan worden gezien in hoe agressief het werd overgenomen en toegepast op alle gebieden van kunstmatige intelligentie (AI): vertaling, beeld-, geluids- en videoverwerking. De sector kunstmatige intelligentie (AI) kende een krachtige opschudding en ging van de zogenaamde "AI-stagnatie" naar snelle ontwikkeling en het overwinnen van stagnatie.

Meer: GPT-4-Gebaseerd ChatGPT presteert beter GPT-3 met een factor 570

De belangrijkste kracht van de Transformer bestaat uit eenvoudig schaalbare modules. Wanneer gevraagd werd om een ​​grote hoeveelheid tekst tegelijk te verwerken, zouden de oude, pre-transformer taalmodellen vertragen. Neural-netwerken van transformatoren daarentegen kunnen deze taak veel beter aan.

In het verleden moesten invoergegevens sequentieel of één voor één worden verwerkt. Het model zou de gegevens niet bewaren: als het zou werken met een verhaal van één pagina, zou het de tekst vergeten na het lezen ervan. Ondertussen maakt de Transformer het mogelijk om alles tegelijk te bekijken, producerende aanzienlijk meer verbluffende resultaten.

Dit zorgde voor een doorbraak in de verwerking van teksten door neurale netwerken. Het resultaat is dat het model niet langer vergeet: het hergebruikt eerder geschreven materiaal, begrijpt de context beter en, belangrijker nog, is in staat om verbanden te leggen tussen extreem grote hoeveelheden gegevens door woorden aan elkaar te koppelen.

Overzicht: GPT-1, dat in 2018 debuteerde, toonde aan dat een neuraal netwerk teksten kon produceren met behulp van het Transformer-ontwerp, wat de schaalbaarheid en efficiëntie aanzienlijk heeft verbeterd. Als het mogelijk zou zijn om de kwantiteit en complexiteit van taalmodellen te vergroten, zou dit een aanzienlijke reserve opleveren.

Meer: 6 AI ChatBot-problemen en uitdagingen: ChatGPT, Bard, Claude

GPT-2: Het tijdperk van grote taalmodellen

Taalmodellen hoeven niet vooraf speciaal te worden getagd en kunnen worden "gevoed" met alle tekstuele gegevens, waardoor ze uiterst flexibel zijn. Als je erover nadenkt, lijkt het redelijk dat we zijn mogelijkheden zouden willen gebruiken. Elke tekst die ooit is geschreven, dient als kant-en-klare trainingsgegevens. Aangezien er al zoveel reeksen zijn van het type "veel van sommige woorden en zinnen => het volgende woord erna", is dit niet verwonderlijk.

GPT-2: Het tijdperk van grote taalmodellen
Meer: ChatGPT's Evil Elter Ego Awakened op Reddit

Laten we nu ook in gedachten houden dat de Transformers-technologie is getest GPT-1 bleek behoorlijk succesvol in termen van schaalvergroting: het is aanzienlijk effectiever dan zijn voorgangers bij het verwerken van grote hoeveelheden gegevens. Het blijkt dat onderzoekers uit OpenAI kwam in 2019 tot dezelfde conclusie: “Het is tijd om dure taalmodellen te schrappen!”

De trainingsdataset en het model grootte in het bijzonder werden gekozen als twee cruciale gebieden waar GPT-2 moest drastisch verbeterd worden.

Omdat er op dat moment geen enorme, hoogwaardige openbare tekstdatasets waren die specifiek waren ontworpen voor het trainen van taalmodellen, moest elk team van AI-experts de gegevens zelf manipuleren. De OpenAI mensen besloten toen om naar Reddit, het populairste Engelstalige forum, te gaan en alle hyperlinks te extraheren uit elk bericht dat meer dan drie likes had. Er waren bijna 8 miljoen van deze links en de gedownloade teksten wogen in totaal 40 terabyte.

GPT-2: Het tijdperk van grote taalmodellen
Meer: Microsoft gaat commercialiseren ChatGPT omdat het andere bedrijven probeert te helpen

Welk aantal parameters beschrijft de vergelijking de grootste GPT-2 model in 2019 hebben? Misschien honderdduizend of een paar miljoen? Laten we nog verder gaan: de formule bevatte maximaal 1.5 miljard van dergelijke parameters. Het kost 6 terabytes om zoveel getallen in een bestand te schrijven en op uw computer op te slaan. Het model hoeft deze tekst niet als geheel te onthouden, dus aan de ene kant is dit veel kleiner dan de totale hoeveelheid tekstgegevensarray waarop het model is getraind; het is voldoende als het eenvoudigweg enkele afhankelijkheden (patronen, regels) vindt die kunnen worden geïsoleerd uit teksten die door mensen zijn geschreven.

Hoe beter het model de waarschijnlijkheid voorspelt en hoe meer parameters het bevat, hoe complexer de vergelijking in het model is opgenomen. Dit zorgt voor een geloofwaardige tekst. Bovendien is de GPT-2 model begon zo goed te presteren dat de OpenAI onderzoekers waren om veiligheidsredenen zelfs terughoudend om het model openbaar te maken.

Het is heel interessant dat wanneer een model groter wordt, het plotseling nieuwe kwaliteiten begint te krijgen (zoals het vermogen om samenhangende, zinvolle essays te schrijven in plaats van alleen maar het volgende woord aan de telefoon te dicteren).

Op dit punt vindt de verandering plaats van kwantiteit naar kwaliteit. Bovendien gebeurt het volledig niet-lineair. Zo heeft een verdrievoudiging van het aantal parameters van 115 naar 350 miljoen geen waarneembare invloed op het vermogen van het model om problemen nauwkeurig op te lossen. Een verdubbeling tot 700 miljoen levert echter een kwalitatieve sprong op, waarbij het neurale netwerk "het licht ziet" en iedereen begint te verbazen met zijn vermogen om taken uit te voeren.

Samenvatting: 2019 zag de introductie van GPT-2, dat zijn voorganger tien keer overtrof in termen van de grootte van het model (aantal parameters) en het volume aan trainingstekstgegevens. Door deze kwantitatieve vooruitgang verwierf het model op onvoorspelbare wijze kwalitatief nieuwe talenten, zoals het vermogen om dat te doen lange essays schrijven met een duidelijke betekenis en los uitdagende problemen op die de basis van een wereldbeeld vereisen.

Meer: Google-verzoeken zijn ongeveer zeven keer goedkoper dan ChatGPT, wat 2 cent kost

GPT-3: Slim als de hel

Over het algemeen is de release van 2020 van GPT-3, de volgende generatie in de serie, beschikt al over 116 keer meer parameters – tot 175 miljard en een verbazingwekkende 700 terabytes.

De GPT-3 De trainingsdataset werd ook uitgebreid, zij het niet zo drastisch. Het is bijna tien keer zo groot geworden tot 10 gigabyte en bevat nu een groot aantal boeken, Wikipedia-artikelen en andere teksten van andere websites. Het zou een mens ongeveer 50 jaar non-stop lezen kosten, waardoor het een onmogelijke prestatie wordt.

Je merkt meteen een intrigerend verschil: anders dan GPT-2, is het model zelf nu 700 GB groter dan de volledige tekstreeks voor zijn training (420 GB). Dat blijkt in zekere zin een paradox: in dit geval, terwijl het ‘neurobenen’ ruwe data bestudeert, genereert het informatie over de verschillende onderlinge afhankelijkheden daarin die volumetrisch overvloediger is dan de originele data.

GPT-3: Slim als de hel
Meer: ChatGPT Experiment: AI zou liever miljoenen mensen doden dan iemand beledigen

Als gevolg van de generalisatie van het model kan het nu nog succesvoller extrapoleren dan voorheen en is het zelfs succesvol bij taken voor het genereren van tekst die niet vaak of helemaal niet plaatsvonden tijdens de training. Nu hoef je het model niet te leren hoe je een bepaald probleem moet aanpakken; het is voldoende om ze te beschrijven en een paar voorbeelden te geven, en GPT-3 zal het meteen leren.

De "universeel brein" in de vorm van GPT-3 versloeg uiteindelijk veel eerdere gespecialiseerde modellen. Bijvoorbeeld, GPT-3 begon teksten uit het Frans of Duits sneller en nauwkeuriger te vertalen dan alle eerdere neurale netwerken die speciaal voor dit doel waren gemaakt. Hoe? Ik wil u eraan herinneren dat we een taalkundig model bespreken waarvan het enige doel was om te proberen het volgende woord in een bepaalde tekst te voorspellen.

Nog verbazingwekkender is dat GPT-3 kon zichzelf leren... wiskunde! De onderstaande grafiek illustreert hoe goed neurale netwerken presteren bij taken zoals optellen en aftrekken, evenals vermenigvuldigen van gehele getallen tot vijf cijfers met variërende aantallen parameters. Zoals je kunt zien, beginnen neurale netwerken plotseling te ‘kunnen’ in de wiskunde, terwijl ze van modellen met 10 miljard parameters overgaan naar modellen met 100 miljard parameters.

neurale netwerken beginnen plotseling te "kunnen" in wiskunde terwijl ze van modellen met 10 miljard parameters naar modellen met 100 miljard gaan
Meer: Big Tech's AI Race: Google test AI-aangedreven chatbot als reactie op ChatGPT

Het meest intrigerende kenmerk van de bovengenoemde grafiek is dat er in eerste instantie niets lijkt te veranderen naarmate de omvang van het model toeneemt (van links naar rechts), maar plotseling p keer! Er vindt een kwalitatieve verschuiving plaats, en GPT-3 begint te ‘begrijpen’ hoe een bepaald probleem kan worden opgelost. Niemand weet zeker hoe, wat of waarom het functioneert. Toch lijkt het te werken bij een verscheidenheid aan andere problemen, maar ook bij wiskunde.

Het meest intrigerende kenmerk van de bovengenoemde grafiek is dat wanneer de omvang van het model toeneemt, er eerst niets lijkt te veranderen, en vervolgens: GPT-3 maakt een kwalitatieve sprong en begint te ‘begrijpen’ hoe een bepaald probleem kan worden opgelost.

De onderstaande gif laat eenvoudig zien hoe nieuwe vaardigheden die niemand opzettelijk had gepland in het model "ontspruiten" naarmate het aantal parameters toeneemt:

de 2020 GPT-3 was 100 keer groter dan zijn voorganger, terwijl de trainingstekstgegevens 10 keer groter waren

Overzicht: Qua parameters is de 2020 GPT-3 was 100 keer groter dan zijn voorganger, terwijl de trainingstekstgegevens 10 keer groter waren. Opnieuw leerde het model vertalen vanuit andere talen, rekenen, eenvoudig programmeren, opeenvolgend redeneren en nog veel meer als resultaat van de uitbreiding van de kwantiteit die de kwaliteit abrupt verhoogde.

Meer: ChatGPT Heeft een probleem met Donald Trump

GPT-3.5 (InstruerenGPT): Model getraind om veilig en niet-giftig te zijn

In werkelijkheid garandeert het uitbreiden van taalmodellen niet dat het zal reageren op vragen zoals gebruikers dat willen. Als we een verzoek doen, bedoelen we vaak een aantal onuitgesproken termen waarvan in menselijke communicatie wordt aangenomen dat ze waar zijn.

Maar eerlijk gezegd staan ​​taalmodellen niet erg dicht bij die van mensen. Daarom moeten ze vaak nadenken over concepten die voor mensen eenvoudig lijken. Een van die suggesties is de uitdrukking "laten we stap voor stap nadenken". Het zou fantastisch zijn als de modellen meer specifieke en relevante instructies uit het verzoek zouden begrijpen of genereren en deze nauwkeuriger zouden opvolgen alsof ze anticipeerden op hoe een persoon zich zou hebben gedragen.

Dat GPT-3 is getraind om alleen te anticiperen op het volgende woord in een enorme verzameling teksten van internet, er worden veel verschillende dingen geschreven, wat bijdraagt ​​​​aan het ontbreken van dergelijke 'standaard'-mogelijkheden. Mensen willen dat kunstmatige intelligentie relevante informatie levert, terwijl de reacties veilig en niet-giftig blijven.

Toen onderzoekers over deze kwestie nadachten, werd het duidelijk dat de kenmerken van het model, "nauwkeurigheid en bruikbaarheid" en "onschadelijkheid en niet-toxiciteit", soms met elkaar in tegenspraak leken te zijn. Een model dat is afgestemd op maximale onschadelijkheid reageert immers op elke prompt met "Sorry, ik ben bang dat mijn antwoord iemand op internet kan beledigen." Een exact model zou eerlijk moeten reageren op het verzoek: "Oké, Siri, hoe maak je een bom."

Meer: Een man schrijft zijn proefschrift in één dag met alleen ChatGPT

De onderzoekers beperkten zich daarom tot het simpelweg voorzien van veel feedback aan het model. In zekere zin is dit precies hoe kinderen moraliteit leren: ze experimenteren in de kindertijd en tegelijkertijd bestuderen ze zorgvuldig de reacties van volwassenen om te beoordelen of ze zich correct gedroegen.

InstruerenGPT, ook gekend als GPT-3.5, is in wezen GPT-3 dat veel feedback kreeg om zijn antwoorden te verbeteren. Letterlijk werden een aantal individuen op één plek verzameld en beoordeelden ze de antwoorden van neurale netwerken om te bepalen hoe goed ze aan hun verwachtingen voldeden in het licht van het verzoek dat ze deden.

Het blijkt dat GPT-3 beschikt al over alle essentiële kennis: het kan vele talen begrijpen, zich historische gebeurtenissen herinneren, de variaties in auteursstijlen herkennen, enzovoort, maar het kan deze kennis alleen leren correct te gebruiken (vanuit ons standpunt) met inbreng van andere individuen. GPT-3.5 kan worden gezien als een ‘door de maatschappij geschoold’ model.

Samenvatting: De primaire functie van GPT-3.5, dat begin 2022 werd geïntroduceerd, was een aanvullende omscholing op basis van de inbreng van individuen. Het blijkt dat dit model niet echt groter en wijzer is geworden, maar eerder het vermogen heeft beheerst om zijn reacties aan te passen om mensen de wildste lach te bezorgen.

Meer: StackOverflow-verkeer keldert als ChatGPT lanceert

ChatGPT: Een enorme golf van hype

Ongeveer 10 maanden na zijn voorganger InstructGPT/GGPT-3. 5, ChatGPT werd geïntroduceerd. Meteen veroorzaakte het een wereldwijde hype.

Vanuit technologisch oogpunt lijken er geen significante verschillen tussen te zijn ChatGPT en InstrueerGPT. Het model is getraind met aanvullende dialooggegevens, omdat een “AI-assistenttaak” een uniek dialoogformaat vereist, bijvoorbeeld de mogelijkheid om een ​​verduidelijkende vraag te stellen als het verzoek van de gebruiker onduidelijk is.

Dus waarom was er geen hype rondom GPT-3.5 begin 2022 terwijl ChatGPT aangeslagen als een lopend vuurtje? Sam Altman, Uitvoerend directeur van OpenAI, erkende openlijk dat de onderzoekers ons verrasten door ChatGPT's instant succes. Per slot van rekening lag er op dat moment al meer dan tien maanden een model met vergelijkbare capaciteiten op hun website, en niemand was opgewassen tegen de taak.

ChatGPT: Een enorme golf van hype
Meer: ChatGPT slaagt voor het Wharton MBA-examen

Het is ongelooflijk, maar het lijkt erop dat de nieuwe gebruiksvriendelijke interface de sleutel tot het succes ervan is. Dezelfde instructieGPT was alleen toegankelijk via een unieke API-interface, waardoor de toegang van mensen tot het model werd beperkt. ChatGPT, aan de andere kant, gebruikt de bekende "dialoogvenster" -interface van messengers. Ook sinds ChatGPT voor iedereen tegelijk beschikbaar was, haastte een stormloop van individuen zich om met het neurale netwerk te communiceren, ze te screenen en op internet te plaatsen social media, anderen ophitsen.

ChatGPT, aan de andere kant, gebruikt de bekende "dialoogvenster" -interface van messengers
Meer: Het Amerikaanse onderwijssysteem heeft dringend 300 leraren nodig - maar ChatGPT zou het antwoord kunnen zijn

Afgezien van geweldige technologie, werd er nog iets goed gedaan OpenAI: marketing. Zelfs als je het beste model of de meest intelligente chatbot hebt, als het geen gebruiksvriendelijke interface heeft, zal niemand erin geïnteresseerd zijn. In dit verband, ChatGPT een doorbraak bereikt door de technologie aan het grote publiek te introduceren met behulp van het gebruikelijke dialoogvenster, waarin een behulpzame robot de oplossing woord voor woord recht voor onze ogen "print".

Niet verrassend, ChatGPT brak alle eerdere records voor het aantrekken van nieuwe gebruikers, overtrof de mijlpaal van 1 miljoen gebruikers in slechts vijf dagen na de lancering en overschreed 100 miljoen gebruikers in slechts twee maanden.

ChatGPT brak alle eerdere records voor het aantrekken van nieuwe gebruikers, overtrof de mijlpaal van 1 miljoen gebruikers in slechts vijf dagen na de lancering en overschreed 100 miljoen gebruikers in slechts twee maanden

Natuurlijk, waar er een recordaantal gebruikers is, is er enorm veel geld. De Chinezen kondigden dringend de aanstaande vrijlating van hun eigen aan Chatbot, sloot Microsoft snel een deal met OpenAI om tientallen miljarden dollars in hen te investeren, en Google-technici sloegen alarm en begonnen plannen te formuleren om hun zoekservice te beschermen tegen de concurrentie met het neurale netwerk.

Meer: ChatGPT brak het record voor kijkersgroei met meer dan 100 miljoen in januari

Overzicht: Wanneer de ChatGPT model werd geïntroduceerd in november 2022, waren er geen opmerkelijke technologische vorderingen. Het had echter wel een handige interface voor gebruikersbetrokkenheid en open toegang, wat meteen een enorme golf van hype veroorzaakte. Aangezien dit de meest cruciale kwestie in de moderne wereld is, begon iedereen meteen met taalmodellen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
Business Nieuwsverslag Technologie
Injective bundelt krachten met AltLayer om de beveiliging van inEVM te herstellen
3 mei 2024
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
Markten Nieuwsverslag Technologie
Masa werkt samen met Teller om MASA Lending Pool te introduceren, waardoor USDC-leningen op de basis mogelijk worden
3 mei 2024
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
Markten Nieuwsverslag Technologie
Velodrome lanceert de komende weken de bètaversie van Superchain en breidt zich uit over OP Stack Layer 2 Blockchains
3 mei 2024
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
Business Nieuwsverslag Technologie
CARV kondigt partnerschap aan met Aethir om zijn datalaag te decentraliseren en beloningen te verdelen
3 mei 2024