Marec 09, 2023

Evolucija klepetalnih robotov iz obdobja T9 in GPT-1 do ChatGPT

Objavljeno: 09. marec 2023 ob 4:00 Posodobljeno: 09. marec 2023 ob 4:50

V zadnjem času smo bili skoraj vsak dan bombardirani z novicami o najnovejših rekordih, ki so jih podirale obsežne nevronske mreže, in o tem, zakaj tako rekoč nihče ni varen. Kljub temu se zelo malo ljudi zaveda, kako rade nevronske mreže ChatGPT dejansko delujejo.

Torej, sprostite se. Ne objokujte še svojih zaposlitvenih možnosti. V tem prispevku bomo razložili vse, kar je treba vedeti o nevronskih mrežah, na način, ki ga lahko razume vsak.

Evolucija klepetalnih robotov iz obdobja T9 in GPT-1 do ChatGPT in Bart

Opozorilo, preden začnemo: ta del je sodelovanje. Celoten tehnični del je napisal strokovnjak za umetno inteligenco, ki je dobro poznan v množici AI.

Ker še nihče ni napisal poglobljenega članka o tem, kako ChatGPT dela, ki bi laično pojasnila podrobnosti nevronskih mrež, smo se odločili, da to naredimo za vas. Poskušali smo ohraniti to objavo čim bolj preprosto, tako da lahko bralci po branju te objave pridobijo splošno razumevanje načel jezikovnih nevronskih mrež. Raziskali bomo, kako jezikovni modeli delo tam, kako so se nevronske mreže razvile, da so imele svoje trenutne zmogljivosti, in zakaj ChatGPTEksplozivna popularnost je presenetila celo njegove ustvarjalce.

Začnimo z osnovami. Razumeti ChatGPT s tehničnega vidika moramo najprej razumeti, kaj ni. To ni Jarvis iz Marvel Comics; ni razumno bitje; to ni duh. Pripravite se na šok: ChatGPT je pravzaprav T9 vašega mobilnega telefona na steroidih! Da, je: znanstveniki obe tehnologiji označujejo kot "jezikovni modeli." Nevronske mreže le ugibajo, katera beseda naj pride naslednja.

Prvotna tehnologija T9 je le pospešila telefonsko klicanje s pritiskom na gumb z ugibanjem trenutnega vnosa namesto naslednje besede. Vendar je tehnologija napredovala in do obdobja pametnih telefonov v zgodnjih 2010-ih je lahko upoštevala kontekst in besedo prej, dodala ločila in ponudila izbor besed, ki bi lahko sledile. To je točno analogija, ki jo delamo s tako "napredno" različico T9 ali samodejnega popravka.

Kot rezultat, tako T9 na tipkovnici pametnega telefona kot ChatGPT so bili usposobljeni za reševanje smešno preproste naloge: predvidevanje naslednje besede. To je znano kot »jezikovno modeliranje« in se zgodi, ko se na podlagi obstoječega besedila sprejme odločitev o tem, kaj bi bilo treba napisati naslednje. Jezikovni modeli morajo delovati na podlagi verjetnosti pojavljanja določenih besed, da lahko naredijo takšne napovedi. Navsezadnje bi vas jezilo, če bi vam samodejno izpolnjevanje vašega telefona vrglo popolnoma naključne besede z enako verjetnostjo.

Zaradi jasnosti si predstavljajmo, da prejmete sporočilo od prijatelja. Piše: "Kakšni so tvoji načrti za večer?" Kot odgovor začnete tipkati: »I'm going to ...«, in tu nastopi T9. Lahko se prikaže popolnoma nesmiselne stvari, kot je »I'm going to the moon«, zapleten jezikovni model ni potreben. Dobri modeli samodejnega izpolnjevanja pametnih telefonov predlagajo veliko bolj ustrezne besede.

Torej, kako T9 ve, katere besede najverjetneje sledijo že natipkanemu besedilu in katere očitno nimajo smisla? Da bi odgovorili na to vprašanje, moramo najprej preučiti temeljna načela delovanja najpreprostejšega nevronske mreže.

Kazalo

Kako modeli AI napovedujejo naslednjo besedo
Zakaj kar naprej poskušamo najti 'prave' besede za določeno besedilo?
GPT-1: Razstrelitev industrije
GPT-2: doba velikih jezikovnih modelov
GPT-3: Pameten kot hudič
GPT-3.5 (NavodiloGPT): Model, usposobljen za varno in nestrupeno
ChatGPT: Ogromen val navdušenja

Več: ChatGPT API je zdaj na voljo, odpira vrata za razvijalce

Kako modeli AI napovedujejo naslednjo besedo

Začnimo s preprostejšim vprašanjem: Kako predvidevate soodvisnost nekaterih stvari od drugih? Predpostavimo, da želimo naučiti računalnik, da predvidi težo osebe glede na njeno višino - kako naj se tega lotimo? Najprej bi morali identificirati interesna področja in nato zbrati podatke, na podlagi katerih bi iskali odvisnosti, ki nas zanimajo, in nato poskušati »trenirati« nek matematični model za iskanje vzorcev v teh podatkih.

Poenostavljeno povedano, T9 oz ChatGPT so samo pametno izbrane enačbe, ki poskušajo napovedati beseda (Y), ki temelji na nizu prejšnjih besed (X), vnesenih v vhod modela. Pri usposabljanju a jezikovni model na naboru podatkov je glavna naloga izbrati koeficiente za te x-je, ki resnično odražajo nekakšno odvisnost (kot v našem primeru z višino in težo). Z velikimi modeli bomo bolje razumeli tiste z velikim številom parametrov. Na področju Umetna inteligenca, jih imenujemo veliki jezikovni modeli ali na kratko LLM. Kot bomo videli kasneje, je velik model s številnimi parametri bistvenega pomena za ustvarjanje dobrega besedila.

Mimogrede, če se sprašujete, zakaj nenehno govorimo o »napovedovanju ene naslednje besede«, medtem ko ChatGPT hitro odgovori s celimi odstavki besedila, odgovor je preprost. Seveda lahko jezikovni modeli brez težav ustvarijo dolga besedila, vendar je celoten postopek beseda za besedo. Ko je ustvarjena vsaka nova beseda, model preprosto znova zažene vse besedilo z novo besedo, da ustvari naslednjo besedo. Postopek se ponavlja znova in znova, dokler ne dobite celotnega odgovora.

Več: ChatGPT Lahko povzroči nepopravljivo degeneracijo človeka

Zakaj kar naprej poskušamo najti 'prave' besede za določeno besedilo?

Jezikovni modeli poskušajo napovedati verjetnosti različnih besed, ki se lahko pojavijo v danem besedilu. Zakaj je to potrebno in zakaj ne morete kar naprej iskati »najbolj pravilne« besede? Poskusimo s preprosto igro, da ponazorimo, kako ta proces deluje.

Pravila so naslednja: Predlagam, da nadaljujete stavek: "44. predsednik Združenih držav (in prvi Afroameričan na tem položaju) je Barak ...". Katera beseda naj gre naslednja? Kakšna je verjetnost, da se bo to zgodilo?

Zakaj kar naprej poskušamo najti 'prave' besede za določeno besedilo?

Če ste s 100-odstotno gotovostjo napovedali, da bo naslednja beseda "Obama", ste se motili! In bistvo tukaj ni, da obstaja še en mitski Barak; je veliko bolj trivialno. Uradni dokumenti običajno uporabljajo predsednikovo polno ime. To pomeni, da bo tisto, kar sledi Obamovemu imenu, njegovo srednje ime, Hussein. Torej bi moral v našem stavku pravilno usposobljen jezikovni model predvideti, da bo "Obama" naslednja beseda le s pogojno 90-odstotno verjetnostjo, in dodeliti preostalih 10%, če besedilo nadaljuje "Hussein" (nakar bo Obama sledijo z verjetnostjo blizu 100 %).

In zdaj smo prišli do zanimivega vidika jezikovnih modelov: niso imuni na ustvarjalne žile! Pravzaprav pri generiranju vsake naslednje besede takšni modeli le-to izberejo na "naključni" način, kot da bi metali kocko. Verjetnost, da različne besede "izpadejo" bolj ali manj ustrezajo verjetnosti, ki jo predlagajo enačbe, vstavljene v model. Te izhajajo iz velikega nabora različnih besedil, ki so bila vnesena v model.

Izkazalo se je, da se lahko model na iste zahteve odzove različno, tako kot živ človek. Raziskovalci so na splošno poskušali prisiliti nevrone, da vedno izberejo »najverjetnejšo« naslednjo besedo, a čeprav se to na prvi pogled zdi racionalno, so takšni modeli v resnici slabši. Zdi se, da je precejšen odmerek naključnosti koristen, saj poveča variabilnost in kakovost odgovorov.

Raziskovalci so na splošno poskušali prisiliti nevrone, da vedno izberejo "najverjetnejšo" naslednjo besedo, a čeprav se to na prvi pogled zdi racionalno, so takšni modeli v resnici slabši.

Več: ChatGPT Nauči se upravljati brezpilotna letala in robote, medtem ko razmišlja o umetni inteligenci naslednje generacije

Naš jezik ima edinstveno strukturo z različnimi nizi pravil in izjem. Obstajajo rime in razlog za to, katere besede se pojavijo v stavku, ne pojavijo se naključno. Vsakdo se nezavedno nauči pravil jezika, ki ga uporablja v svojih zgodnjih letih formacije.

Spodoben model bi moral upoštevati širok razpon opisnosti jezika. Modelov sposobnost ustvarjanja želenih rezultatov odvisno od tega, kako natančno izračuna verjetnosti besed na podlagi podrobnosti konteksta (prejšnji del besedila pojasnjuje okoliščino).

zmožnost modela, da ustvari želene rezultate, je odvisna od tega, kako natančno izračuna verjetnosti besed na podlagi podrobnosti konteksta (prejšnji del besedila pojasnjuje okoliščine).

Povzetek: Preprosti jezikovni modeli, ki so nabor enačb, usposobljenih na ogromni količini podatkov za napovedovanje naslednje besede na podlagi izvornega besedila vnosa, so bili implementirani v funkcionalnost »T9/Autofill« pametnih telefonov od zgodnjih 2010.

Več: Kitajska podjetjem prepoveduje uporabo ChatGPT Po škandalu z "resničnimi novicami".

GPT-1: Razstrelitev industrije

Odmaknimo se od modelov T9. Medtem ko verjetno berete ta članek spoznajte ChatGPT, najprej se moramo pogovoriti o začetkih GPT vzorna družina.

GPT pomeni "generativni vnaprej usposobljeni transformator", medtem ko je arhitektura nevronske mreže, ki so jo razvili Googlovi inženirji leta 2017 je znan kot Transformer. Transformer je univerzalni računalniški mehanizem, ki sprejme niz zaporedij (podatkov) kot vhod in proizvede isti niz zaporedij, vendar v drugačni obliki, ki je bila spremenjena z nekim algoritmom.

Pomen stvaritve Transformerja je razviden iz tega, kako agresivno je bil sprejet in uporabljen na vseh področjih umetne inteligence (AI): prevajanje, obdelava slike, zvoka in videa. Sektor umetne inteligence (AI) je doživel močan pretres, ki je prešel iz tako imenovane »stagnacije AI« v hiter razvoj in premagovanje stagnacije.

Več: GPT-4-Temelji ChatGPT Presega GPT-3 s faktorjem 570

Ključno moč Transformerja sestavljajo moduli, ki jih je enostavno prilagoditi. Ko bi morali obdelati veliko količino besedila hkrati, bi se stari jezikovni modeli pred transformacijo upočasnili. Po drugi strani pa transformatorske nevronske mreže veliko bolje obvladajo to nalogo.

V preteklosti je bilo treba vhodne podatke obdelovati zaporedno ali enega za drugim. Model ne bi obdržal podatkov: če bi deloval z enostransko pripovedjo, bi pozabil besedilo, potem ko bi ga prebral. Medtem pa Transformer omogoča ogled vsega naenkrat, proizvodnjo bistveno bolj osupljive rezultate.

Prav to je omogočilo preboj v obdelavi besedil z nevronskimi mrežami. Posledično model ne pozablja več: ponovno uporablja predhodno napisano gradivo, bolje razume kontekst in, kar je najbolj ključno, lahko ustvari povezave med izjemno velikimi količinami podatkov s seznanjanjem besed.

Povzetek: GPT-1, ki je debitiral leta 2018, je pokazal, da lahko nevronska mreža proizvaja besedila z uporabo zasnove Transformer, ki je znatno izboljšala razširljivost in učinkovitost. Če bi bilo mogoče povečati količino in kompleksnost jezikovnih modelov, bi to ustvarilo precejšnjo rezervo.

Več: 6 Težave in izzivi AI ChatBot: ChatGPT, Bard, Claude

GPT-2: doba velikih jezikovnih modelov

Jezikovnih modelov ni treba vnaprej posebej označiti in jih je mogoče "nahraniti" s poljubnimi besedilnimi podatki, zaradi česar so izjemno prilagodljivi. Če malo razmislite, se zdi razumno, da bi želeli uporabiti njegove sposobnosti. Vsako besedilo, ki je bilo kdaj napisano, služi kot že pripravljeni podatki za usposabljanje. Ker obstaja že toliko zaporedij tipa "veliko nekih besed in fraz => naslednja beseda za njimi," to ni presenetljivo.

Več: ChatGPT's Evil Elter Ego Awakened on Reddit

Upoštevajmo tudi, da je tehnologija Transformers testirana na GPT-1 se je izkazal za precej uspešnega v smislu skaliranja: je precej bolj učinkovit od svojih predhodnikov pri obdelavi velikih količin podatkov. Izkazalo se je, da raziskovalci iz OpenAI leta 2019 prišel do enakega zaključka: "Čas je, da zmanjšamo drage jezikovne modele!"

O nabor podatkov o usposabljanju in model zlasti velikost sta bili izbrani kot dve ključni področji, kjer GPT-2 je bilo potrebno drastično izboljšati.

Ker v tistem času ni bilo ogromnih, visokokakovostnih naborov javnih besedilnih podatkov, posebej zasnovanih za usposabljanje jezikovnih modelov, je morala vsaka ekipa strokovnjakov za umetno inteligenco sama manipulirati s podatki. The OpenAI Ljudje so se nato odločili, da obiščejo Reddit, najbolj priljubljen forum v angleškem jeziku, in izvlečejo vse hiperpovezave iz vsake posamezne objave, ki je imela več kot tri všečke. Teh povezav je bilo skoraj 8 milijonov, prenesena besedila pa so skupaj tehtala 40 terabajtov.

Več: Microsoft bo komercializiral ChatGPT ker želi pomagati drugim podjetjem

Koliko parametrov je enačba, ki opisuje največje GPT-2 model v 2019 imajo? Morda sto tisoč ali nekaj milijonov? No, pojdimo še dlje: formula je vsebovala do 1.5 milijarde takih parametrov. Potrebovali boste 6 terabajtov, da samo zapišete toliko številk v datoteko in jo shranite v svoj računalnik. Modelu ni treba zapomniti tega besedila kot celote, tako da je po eni strani to veliko manjše od skupne količine matrike besedilnih podatkov, na kateri se je učil model; dovolj je, da preprosto najde neke odvisnosti (vzorce, pravila), ki jih je mogoče izolirati iz besedil, ki so jih napisali ljudje.

Bolje ko model napoveduje verjetnost in več parametrov vsebuje, bolj zapletena enačba je vključena v model. To omogoča verodostojno besedilo. Poleg tega je GPT-2 model je začel delovati tako dobro, da je OpenAI raziskovalci zaradi varnosti celo niso želeli razkriti modela na prostem.

Zelo zanimivo je, da ko model postane večji, nenadoma začne imeti nove lastnosti (na primer sposobnost pisanja kohezivnih, smiselnih esejev namesto zgolj narekovanja naslednje besede po telefonu).

Na tej točki pride do spremembe kvantitete v kvaliteto. Poleg tega se dogaja povsem nelinearno. Na primer, trikratno povečanje števila parametrov s 115 na 350 milijonov nima opaznega vpliva na sposobnost modela, da natančno reši probleme. Vendar pa dvakratno povečanje na 700 milijonov povzroči kvalitativni preskok, kjer nevronska mreža "ugleda luč" in začne vse presenetiti s svojo sposobnostjo dokončanja nalog.

Povzetek: Leta 2019 je bil predstavljen GPT-2, ki je 10-krat prehitel svojega predhodnika glede na velikost modela (število parametrov) in obseg učnih besedilnih podatkov. Zaradi tega kvantitativnega napredka je model nepredvidljivo pridobil kvalitativno nove talente, kot je sposobnost pisati dolge eseje z jasnim pomenom in reševanje zahtevnih problemov, ki zahtevajo temelje svetovnega nazora.

Več: Googlove zahteve so približno sedemkrat cenejše od ChatGPT, ki stane 2 centa

GPT-3: Pameten kot hudič

Na splošno je izdaja 2020 GPT-3, naslednja generacija v seriji, se že ponaša s 116-krat več parametri – do 175 milijard in osupljivih 700 terabajtov.

O GPT-3 tudi nabor podatkov o usposabljanju je bil razširjen, čeprav ne tako drastično. Povečal se je za skoraj 10-krat na 420 gigabajtov in zdaj vsebuje veliko število knjig, Wikipedia članke in druga besedila z drugih spletnih mest. Človek bi potreboval približno 50 let neprekinjenega branja, zaradi česar je to nemogoč podvig.

Takoj opazite zanimivo razliko: za razliko od GPT-2, sam model je zdaj 700 GB večji od celotnega niza besedila za njegovo usposabljanje (420 GB). To se v nekem smislu izkaže za paradoks: v tem primeru, ko "nevrobrain" preučuje neobdelane podatke, ustvari informacije o različnih medsebojnih odvisnostih znotraj njih, ki so volumetrično obsežnejše od prvotnih podatkov.

Več: ChatGPT Eksperiment: umetna inteligenca bi raje ubila milijone ljudi, kot koga užalila

Kot rezultat posplošitve modela je zdaj sposoben ekstrapolirati še uspešneje kot prej in je uspešen tudi pri nalogah generiranja besedila, ki so se med usposabljanjem pojavljale redko ali sploh ne. Sedaj vam ni treba učiti modela, kako naj se loti določenega problema; dovolj jih je opisati in navesti nekaj primerov ter GPT-3 se bo takoj naučil.

O "univerzalni možgani" v obliki GPT-3 sčasoma premagal številne prejšnje specializirane modele. Na primer, GPT-3 začela prevajati besedila iz francoščine ali nemščine hitreje in natančneje od vseh predhodnih nevronskih mrež, ustvarjenih posebej za ta namen. kako Naj vas spomnim, da razpravljamo o lingvističnem modelu, katerega edini cilj je bil poskus predvideti naslednjo besedo v danem besedilu.

Še bolj osupljivo, GPT-3 se je lahko sam naučil ... matematiko! Spodnji graf prikazuje, kako uspešne so nevronske mreže pri nalogah, vključno s seštevanjem in odštevanjem ter množenjem celih števil do pet mest z različnim številom parametrov. Kot lahko vidite, nevronske mreže nenadoma začnejo »sposobiti« matematiko, medtem ko prehajajo iz modelov z 10 milijardami parametrov na modele s 100 milijardami.

nevronske mreže nenadoma začnejo "moči" v matematiki, medtem ko gredo od modelov z 10 milijardami parametrov do modelov s 100 milijardami

Več: Big Tech's AI Race: Google preizkuša klepetalnice, ki jih poganja AI kot odziv na ChatGPT

Najbolj zanimiva značilnost zgoraj omenjenega grafa je, kako se na začetku zdi, da se nič ne spremeni, ko se velikost modela povečuje (od leve proti desni), nenadoma pa p-krat! Pride do kvalitativnega premika in GPT-3 začne »razumeti«, kako rešiti določeno težavo. Nihče ni prepričan, kako, kaj ali zakaj deluje. Kljub temu se zdi, da deluje pri številnih drugih težavah, pa tudi pri matematiki.

Najbolj zanimiva značilnost zgoraj omenjenega grafa je, da ko se velikost modela poveča, se najprej zdi, da se nič ne spremeni, nato pa GPT-3 naredi kvalitativni preskok in začne »razumeti«, kako rešiti določeno težavo.

Spodnji gif preprosto prikazuje, kako nove sposobnosti, ki jih nihče ni namerno načrtoval, "vzklijejo" v modelu, ko se število parametrov povečuje:

2020 GPT-3 je bil 100-krat večji od svojega predhodnika, medtem ko so bili besedilni podatki za usposabljanje 10-krat večji

Povzetek: Po parametrih je 2020 GPT-3 je bil 100-krat večji od svojega predhodnika, medtem ko so bili besedilni podatki za usposabljanje 10-krat večji. Ponovno se je model naučil prevajati iz drugih jezikov, izvajati aritmetiko, izvajati preprosto programiranje, sklepati zaporedoma in še veliko več zaradi povečanja količine, ki je nenadoma povečala kakovost.

Več: ChatGPT Ima težave z Donaldom Trumpom

GPT-3.5 (NavodiloGPT): Model, usposobljen za varno in nestrupeno

V resnici razširitev jezikovnih modelov ne zagotavlja, da se bo odzival na poizvedbe tako, kot si želijo uporabniki. Pravzaprav, ko podamo zahtevo, pogosto namenjamo številne neizgovorjene izraze, za katere se v človeški komunikaciji domneva, da so resnični.

Vendar, če sem iskren, jezikovni modeli niso zelo blizu modelom ljudi. Zato morajo pogosto razmišljati o konceptih, ki se ljudem zdijo preprosti. Eden takšnih predlogov je besedna zveza »razmišljajmo korak za korakom«. Bilo bi fantastično, če bi modeli razumeli ali ustvarili bolj specifična in ustrezna navodila iz zahteve in jim sledili bolj natančno, kot da bi predvidevali, kako se bo oseba obnašala.

Dejstvo, da je GPT-3 je izurjen, da samo predvidi naslednjo besedo v ogromni zbirki besedil z interneta, napisanih je veliko različnih stvari, prispeva k pomanjkanju takšnih »privzetih« sposobnosti. Ljudje želijo, da umetna inteligenca zagotavlja ustrezne informacije, pri tem pa ohranja odzive varne in nestrupene.

Ko so raziskovalci malo razmislili o tem vprašanju, je postalo očitno, da so atributi modela »natančnost in uporabnost« ter »neškodljivost in nestrupenost« včasih videti med seboj v nasprotju. Navsezadnje se bo model, ki je prilagojen za največjo neškodljivost, na kakršen koli poziv odzval z "Oprostite, skrbi me, da bi moj odgovor lahko koga na internetu užalil." Natančen model bi moral odkrito odgovoriti na zahtevo: "V redu, Siri, kako ustvariti bombo."

Več: Fant napiše diplomsko nalogo v enem dnevu samo z uporabo ChatGPT

Raziskovalci so bili zato omejeni na preprosto zagotavljanje modela z veliko povratnimi informacijami. Otroci se v nekem smislu učijo morale natanko tako: v otroštvu eksperimentirajo, hkrati pa skrbno preučujejo reakcije odraslih, da ocenijo, ali so ravnali pravilno.

NavodiloGPT, poznan tudi kot GPT-3.5, je v bistvu GPT-3 ki je prejel veliko povratnih informacij, da bi izboljšal svoje odgovore. Dobesedno je bilo na enem mestu zbranih več posameznikov, ki so ocenjevali odgovore nevronske mreže, da bi ugotovili, kako dobro se ujemajo z njihovimi pričakovanji glede na zahtevo, ki so jo podali.

Izkazalo se je, da GPT-3 je že imel vse bistveno znanje: lahko je razumel številne jezike, se spomnil zgodovinskih dogodkov, prepoznal razlike v avtorskih slogih itd., vendar se je lahko naučil pravilno uporabljati to znanje (z našega vidika) le z vložki drugih posameznikov. GPT-3.5 je mogoče razumeti kot "družbeno izobražen" model.

Povzetek: Primarna funkcija GPT-3.5, ki je bil uveden v začetku leta 2022, je bilo dodatno prekvalificiranje na podlagi prispevkov posameznikov. Izkazalo se je, da ta model dejansko ni postal večji in modrejši, temveč je obvladal sposobnost prilagajanja svojih odzivov, da bi ljudem ponudil najbolj divji smeh.

Več: StackOverflow promet strmo upada, ko ChatGPT izstrelki

ChatGPT: Ogromen val navdušenja

Približno 10 mesecev po predhodniku InstructGPT/GGPT-3.5, ChatGPT je bil predstavljen. Takoj je povzročilo svetovni hype.

S tehnološkega vidika se zdi, da med njimi ni bistvenih razlik ChatGPT in InstructGPT. Model je bil usposobljen z dodatnimi podatki o pogovornem oknu, saj »opravilo pomočnika AI« zahteva edinstveno obliko pogovornega okna, na primer zmožnost postavljanja pojasnjevalnega vprašanja, če je uporabnikova zahteva nejasna.

Torej, zakaj ni bilo hype okoli GPT-3.5 v začetku leta 2022, medtem ko ChatGPT zajel kot požar? Sam Altman, Izvršni direktor družbe OpenAI, odkrito priznala, da raziskovalci, ki smo jih presenetili ChatGPTtakojšen uspeh. Navsezadnje je model z njim primerljivimi sposobnostmi takrat več kot deset mesecev miroval na njihovi spletni strani in nihče ni bil kos tej nalogi.

Več: ChatGPT opravi Wharton MBA izpit

Neverjetno, a zdi se, da je nov uporabniku prijazen vmesnik ključ do njegovega uspeha. Enako navodiloGPT je bilo mogoče dostopati samo prek edinstvenega vmesnika API, kar ljudem omejuje dostop do modela. ChatGPT, po drugi strani pa uporablja dobro znani vmesnik »pogovornega okna« messengerjev. Tudi od ChatGPT je bil na voljo vsem naenkrat, je stampedo posameznikov hitel komunicirati z nevronsko mrežo, jih pregledati in objaviti na družbeni mediji, navijanje drugih.

ChatGPT, po drugi strani pa uporablja dobro znani vmesnik »pogovornega okna« messengerjev

Več: Ameriški izobraževalni sistem nujno potrebuje 300 učiteljev - vendar ChatGPT bi lahko bil odgovor

Poleg odlične tehnologije je bila še ena stvar narejena prav OpenAI: trženje. Tudi če imate najboljši model ali najbolj inteligentnega chatbota, če ta nima vmesnika, ki je enostaven za uporabo, ne bo nikogar zanimal. V zvezi s tem, ChatGPT dosegel preboj s predstavitvijo tehnologije širši javnosti s pomočjo običajnega pogovornega okna, v katerem nam ustrežljiv robot besedo za besedo "natisne" rešitev tik pred našimi očmi.

Ni presenetljivo, ChatGPT dosegel vse dosedanje rekorde v privabljanju novih uporabnikov, presegel mejnik 1 milijona uporabnikov v samo petih dneh od lansiranja in presegel 100 milijonov uporabnikov v samo dveh mesecih.

ChatGPT dosegel vse dosedanje rekorde v privabljanju novih uporabnikov, presegel mejnik 1 milijona uporabnikov v samo petih dneh po uvedbi in presegel 100 milijonov uporabnikov v samo dveh mesecih

Seveda je tam, kjer je rekorden porast uporabnikov, ogromno denarja. Kitajci so nujno napovedali skorajšnjo izpustitev svojega chatbot, je Microsoft hitro sklenil dogovor OpenAI vanje vložiti več deset milijard dolarjev, Googlovi inženirji pa so sprožili alarm in začeli oblikovati načrte za zaščito svoje iskalne storitve pred konkurenco z nevronsko mrežo.

Več: ChatGPT januarja podrl rekord glede rasti občinstva z več kot 100 milijoni

Povzetek: Ko ChatGPT model je bil predstavljen novembra 2022, omembe vrednega tehnološkega napredka ni bilo. Vseeno pa je imel priročen vmesnik za vključevanje uporabnikov in odprt dostop, kar je takoj sprožilo ogromen val navdušenja. Ker je to najbolj pereče vprašanje sodobnega sveta, so se jezikovnih modelov vsi lotili takoj.

Preberite več o AI:

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov