Március 09, 2023

The Evolution of Chatbots from T9-Era and GPT-1 nak nek ChatGPT

Közzétéve: 09. március 2023. 4:00 Frissítve: 09. március 2023. 4:50

Az utóbbi időben szinte naponta bombáznak minket hírbejegyzések a nagyméretű neurális hálózatok által megdöntött legújabb rekordokról, és arról, hogy miért nincs senkinek biztonságban a munkája. Mindazonáltal nagyon kevesen vannak tisztában azzal, hogyan szeretik a neurális hálózatokat ChatGPT ténylegesen működnek.

Szóval nyugi. Még ne siránkozzon álláslehetőségei miatt. Ebben a bejegyzésben mindenki számára érthető módon elmagyarázunk mindent, amit a neurális hálózatokról tudni kell.

The Evolution of Chatbots from T9-Era and GPT-1 nak nek ChatGPT és Bart

Egy figyelmeztetés a kezdés előtt: Ez a darab egy együttműködés. A teljes technikai részt egy mesterséges intelligenciával foglalkozó szakember írta, aki jól ismert a mesterséges intelligencia közönség körében.

Mivel még senki nem írt mélyreható darabot a hogyanról ChatGPT olyan munkák, amelyek laikus kifejezéssel elmagyarázzák a neurális hálózatok csínját-bínját, úgy döntöttünk, hogy megtesszük ezt az Ön számára. Megpróbáltuk ezt a bejegyzést a lehető legegyszerűbbé tenni, hogy az olvasók a poszt olvasása során általánosan megértsék a nyelvi neurális hálózatok alapelveit. Megvizsgáljuk, hogyan nyelvi modellek ott dolgoznak, hogyan fejlődtek a neurális hálózatok jelenlegi képességeik birtoklására, és miért ChatGPTkirobbanó népszerűsége még az alkotóit is meglepte.

Kezdjük az alapokkal. Megérteni ChatGPT technikai szempontból először meg kell értenünk, mi nem az. Ez nem a Marvel Comics Jarvis-je; nem racionális lény; ez nem dzsinn. Készülj fel a sokkolásra: ChatGPT valójában a mobiltelefonod T9-je szteroidokon! Igen, ez: A tudósok mindkét technológiát úgy emlegetik „nyelvi modellek”. A neurális hálózatok csak kitalálják, melyik szó következzen.

Az eredeti T9 technológia csak az aktuális bevitel kitalálásával gyorsította fel a nyomógombos telefontárcsázást, nem pedig a következő szót. A technológia azonban fejlődött, és a 2010-es évek elején az okostelefonok korszakára képes volt figyelembe venni a szövegkörnyezetet és az előző szót, írásjeleket hozzáadni, és a következő szavakat kínálni. Pontosan ez az analógia a T9 ilyen „fejlett” verziójával vagy az automatikus javítással.

Ennek eredményeként mind a T9 okostelefon billentyűzetén, mind ChatGPT nevetségesen egyszerű feladat megoldására képezték ki: a következő szó előrejelzése. Ezt „nyelvi modellezésnek” nevezik, és akkor fordul elő, amikor a meglévő szöveg alapján döntés születik arról, hogy mit kell ezután írni. A nyelvi modelleknek konkrét szavak előfordulásának valószínűségét kell figyelembe venniük ahhoz, hogy ilyen előrejelzéseket készítsenek. Elvégre bosszankodna, ha a telefon automatikus kitöltése ugyanolyan valószínűséggel teljesen véletlenszerű szavakat dobna rád.

Az egyértelműség kedvéért képzeljük el, hogy üzenetet kap egy barátjától. Ez áll: "Mi a terved estére?" Válaszul elkezdi begépelni: „Megyek…”, és itt jön be a T9. Lehetséges, hogy teljesen értelmetlen dolgokkal áll elő, mint például: „Megyek a Holdra”, nincs szükség bonyolult nyelvi modellre. A jó okostelefonos automatikus kiegészítési modellek sokkal relevánsabb szavakat sugallnak.

Tehát honnan tudja a T9, hogy mely szavak követik nagyobb valószínűséggel a már begépelt szöveget, és melyeknek nyilvánvalóan nincs értelme? A kérdés megválaszolásához először a legegyszerűbbek alapvető működési elveit kell megvizsgálnunk neurális hálózatok.

Tartalomjegyzék

Hogyan jósolják meg az AI-modellek a következő szót
Miért próbáljuk folyamatosan megtalálni a „helyes” szavakat egy adott szöveghez?
GPT-1: Az ipar felrobbantása
GPT-2: A nagy nyelvi modellek kora
GPT-3: Okos, mint a pokol
GPT-3.5 (UtasításGPT): A modellt úgy képezték ki, hogy biztonságos és nem mérgező legyen
ChatGPT: A hatalmas felhajtás

További részletek: ChatGPT Az API már elérhető, megnyitja a zsilipajtót a fejlesztők számára

Hogyan jósolják meg az AI-modellek a következő szót

Kezdjük egy egyszerűbb kérdéssel: Hogyan jósolja meg egyes dolgok egymásra utaltságát? Tételezzük fel, hogy meg akarunk tanítani egy számítógépet arra, hogy előre jelezze egy személy súlyát a magassága alapján – hogyan tegyük ezt? Először meg kell határoznunk az érdeklődési területeket, majd össze kell gyűjtenünk azokat az adatokat, amelyek alapján megkereshetjük az érdeklődési függőségeket, majd meg kell próbálnunk „tanítson” valamilyen matematikai modellt mintákat keresni ezeken az adatokon belül.

Egyszerűen fogalmazva: T9 ill ChatGPT csak ügyesen megválasztott egyenletek, amelyek arra törekednek előre egy szó (Y), amely a modellbemenetbe betáplált előző szavak halmazán (X) alapul. Edzéskor a nyelvi modell egy adathalmazon a fő feladat az, hogy ezekhez az x-ekhez olyan együtthatókat válasszunk, amelyek valóban tükröznek valamilyen függőséget (mint a példánkban a magasság és a súly esetében). A nagy modellekkel pedig jobban megértjük a nagyszámú paraméterrel rendelkezőket. A területen mesterséges intelligencia, nagy nyelvi modelleknek vagy röviden LLM-eknek nevezik őket. Ahogy a későbbiekben látni fogjuk, egy nagy, sok paraméterrel rendelkező modell elengedhetetlen a jó szöveg előállításához.

Mellesleg, ha azon töpreng, miért beszélünk folyton arról, hogy „megjósoljuk a következő szót”. ChatGPT gyorsan válaszol egész szövegrészekkel, a válasz egyszerű. Természetesen a nyelvi modellek nehézség nélkül képesek hosszú szövegeket generálni, de az egész folyamat szóról szóra zajlik. Minden új szó létrehozása után a modell egyszerűen újrafutja az egész szöveget az új szóval a következő szó létrehozásához. A folyamat újra és újra megismétlődik, amíg meg nem kapja a teljes választ.

További részletek: ChatGPT Visszafordíthatatlan emberi degenerációt okozhat

Miért próbáljuk folyamatosan megtalálni a „helyes” szavakat egy adott szöveghez?

A nyelvi modellek megpróbálják megjósolni, hogy egy adott szövegben milyen valószínűséggel fordulhatnak elő különböző szavak. Miért van erre szükség, és miért nem lehet folyton a „leghelyesebb” szót keresni? Próbáljunk meg egy egyszerű játékkal illusztrálni, hogyan működik ez a folyamat.

A szabályok a következők: Javaslom, hogy folytassa a mondatot: „Az Egyesült Államok 44. elnöke (és az első afroamerikai ebben a pozícióban) Barak…”. Melyik szó következzen? Mennyi a valószínűsége, hogy bekövetkezik?

Miért próbáljuk folyamatosan megtalálni a „helyes” szavakat egy adott szöveghez?

Ha 100%-os bizonyossággal megjósoltad, hogy a következő szó „Obama” lesz, tévedtél! És itt nem az a lényeg, hogy van egy másik mitikus Barak; ez sokkal triviálisabb. A hivatalos dokumentumok általában az elnök teljes nevét használják. Ez azt jelenti, hogy Obama keresztneve után a középső neve, Husszein lesz. Tehát a mi mondatunkban egy megfelelően képzett nyelvi modellnek meg kell jósolnia, hogy „Obama” lesz a következő szó, csak 90%-os feltételes valószínűséggel, és a maradék 10%-ot le kell osztani, ha a szöveget „Husszein” folytatja (ami után Obama közel 100%-os valószínűséggel követni.

És most elérkeztünk a nyelvi modellek egy érdekes aspektusához: nem mentesek a kreatív csíkoktól! Valójában minden következő szó generálásakor az ilyen modellek „véletlenszerűen” választják azt, mintha kockával dobnának. A különböző szavak „kiesésének” valószínűsége többé-kevésbé megfelel a modellbe beillesztett egyenletek által javasolt valószínűségeknek. Ezek a modell által betáplált különféle szövegek hatalmas tömbjéből származnak.

Kiderült, hogy egy modell ugyanazokra a kérésekre eltérően tud válaszolni, akárcsak egy élő ember. A kutatók általában megpróbálták rákényszeríteni a neuronokat, hogy mindig a „legvalószínűbb” következő szót válasszák, de bár ez a felszínen racionálisnak tűnik, az ilyen modellek a valóságban rosszabbul teljesítenek. Úgy tűnik, a véletlenszerűség méltányos adagja előnyös, mivel növeli a válaszok variabilitását és minőségét.

A kutatók általában megpróbálták rákényszeríteni a neuronokat, hogy mindig a "legvalószínűbb" következő szót válasszák, de bár ez a felszínen racionálisnak tűnik, az ilyen modellek a valóságban rosszabbul teljesítenek.

További részletek: ChatGPT Megtanulja irányítani a drónokat és robotokat, miközben a következő generációs AI-n gondolkodik

Nyelvünk egyedi felépítésű, különböző szabályokkal és kivételekkel. Van rím és oka annak, hogy milyen szavak jelennek meg a mondatban, nem csak véletlenszerűen fordulnak elő. Mindenki öntudatlanul megtanulja az általa használt nyelv szabályait korai formációs éveiben.

Egy tisztességes modellnek figyelembe kell vennie a nyelv leíró jellegének széles skáláját. A modellé képes elérni a kívánt eredményt attól függ, hogy a szövegkörnyezet finomságai alapján mennyire pontosan számítja ki a szavak valószínűségét (a szöveg előző, a körülményt magyarázó része).

A modell azon képessége, hogy a kívánt eredményeket produkálja, attól függ, hogy a szövegkörnyezet finomságai alapján mennyire pontosan számítja ki a szavak valószínűségét (a szöveg előző szakasza, amely a körülményt magyarázza).

Összegzés: A 9-es évek eleje óta az okostelefonok „T2010/Autofill” funkciójában az egyszerű nyelvi modelleket, amelyek hatalmas mennyiségű adatra kiképzett egyenletek alkotják, amelyek a bemeneti forrásszöveg alapján megjósolják a következő szót.

További részletek: Kína betiltja a vállalatok használatát ChatGPT Az „Igaz Hírek” Botrány után

GPT-1: Az ipar felrobbantása

Távolodjunk el a T9 modellektől. Miközben valószínűleg ezt a darabot olvassa tanulni valamiről ChatGPT, először is meg kell beszélnünk a kezdeteket a GPT mintacsalád.

GPT a „generatív előképzett transzformátor” rövidítése, míg a neurális hálózati architektúra, amelyet a Google mérnökei fejlesztettek ki 2017-ben a Transformer néven ismert. A Transformer egy univerzális számítási mechanizmus, amely sorozatok (adatok) halmazát fogadja be bemenetként, és ugyanazt a sorozatkészletet állítja elő, de más formában, amelyet valamilyen algoritmus megváltoztatott.

A Transformer létrehozásának jelentősége jól látható abban, hogy milyen agresszívan alkalmazták és alkalmazták a mesterséges intelligencia (AI) minden területén: fordításban, kép-, hang- és videófeldolgozásban. A mesterséges intelligencia (AI) szektor erőteljes megrázkódtatáson esett át, az úgynevezett „AI stagnálásból” a gyors fejlődés és a stagnálás leküzdése felé haladva.

További részletek: GPT-4-Alapon ChatGPT felülmúlja GPT-3 570-es faktorral

A Transformer fő erőssége a könnyen méretezhető modulokból áll. Ha egyszerre nagy mennyiségű szöveget kellene feldolgozni, a régi, transzformátor előtti nyelvi modellek lelassulnának. A transzformátor neurális hálózatok viszont sokkal jobban kezelik ezt a feladatot.

Régebben a bemeneti adatokat egymás után vagy egyenként kellett feldolgozni. A modell nem őrizné meg az adatokat: Ha egyoldalas narratívával működne, akkor elolvasása után elfelejtené a szöveget. Eközben a Transformer lehetővé teszi, hogy mindent egyszerre nézzen meg, termelő lényegesen lenyűgözőbb eredményeket.

Ez tette lehetővé az áttörést a szövegek neurális hálózatok általi feldolgozásában. Ennek eredményeként a modell már nem felejt: újrafelhasználja a korábban megírt anyagot, jobban megérti a kontextust, és ami a legfontosabb, szavak párosításával képes kapcsolatokat teremteni rendkívül nagy mennyiségű adat között.

Összefoglaló: GPT-1, amely 2018-ban debütált, bebizonyította, hogy egy neurális hálózat képes szövegeket előállítani a Transformer dizájn használatával, ami jelentősen javította a méretezhetőséget és a hatékonyságot. Ha lehetséges lenne növelni a nyelvi modellek mennyiségét és összetettségét, az jelentős tartalékot képezne.

További részletek: 6 AI ChatBot probléma és kihívás: ChatGPT, Bard, Claude

GPT-2: A nagy nyelvi modellek kora

A nyelvi modelleket nem kell előzetesen külön címkézni, és bármilyen szöveges adattal „táplálhatók”, így rendkívül rugalmasak. Ha belegondolunk, ésszerűnek tűnik, hogy ki akarjuk használni a képességeit. Bármilyen szöveg, amelyet valaha írtak, kész képzési adatként szolgál. Mivel már nagyon sok a „sok szó és kifejezés => utánuk következő szó” típusú sorozat, ez nem meglepő.

További részletek: ChatGPTEvil Elter Ego Awakened a Redditen

Most azt is tartsuk szem előtt, hogy a Transformers technológiát tesztelték GPT-1 A skálázás terén meglehetősen sikeresnek bizonyult: elődeinél lényegesen hatékonyabban kezeli a nagy mennyiségű adatot. Kiderül, hogy a kutatók a OpenAI 2019-ben ugyanerre a következtetésre jutott: „Ideje levágni a drága nyelvi modelleket!”

A képzési adatkészlet és a modell különösen a méretet választották két kulcsfontosságú területként, ahol GPT-2 drasztikusan javítani kellett.

Mivel akkoriban nem léteztek hatalmas, jó minőségű nyilvános szöveges adatkészletek, amelyeket kifejezetten a nyelvi modellek képzésére terveztek volna, így minden mesterséges intelligencia-szakértői csapatnak saját maga kellett manipulálnia az adatokat. A OpenAI Az emberek ezután úgy döntöttek, hogy felkeresik a Reddit-et, a legnépszerűbb angol nyelvű fórumot, és kivonják az összes hivatkozást minden olyan bejegyzésből, amely háromnál több lájkot kapott. Közel 8 millió ilyen hivatkozás volt, és a letöltött szövegek összesen 40 terabájtot nyomtak.

További részletek: A Microsoft kereskedelmi forgalomba kerül ChatGPT amint más cégeknek kíván segíteni

Hány paramétert tartalmazott a legnagyobbat leíró egyenlet GPT-2 modell 2019-ben? Talán százezer vagy néhány millió? Nos, menjünk még tovább: A képlet akár 1.5 milliárd ilyen paramétert tartalmazott. 6 terabájtot vesz igénybe, hogy ennyi számot egy fájlba írjon, és elmentse a számítógépére. A modellnek nem kell ezt a szöveget egészében memorizálnia, így egyrészt ez jóval kisebb, mint annak a szöveges adattömbnek a teljes mennyisége, amelyre a modellt betanította; elég, ha egyszerűen talál néhány függőséget (mintákat, szabályokat), amelyek elkülöníthetők az emberek által írt szövegektől.

Minél jobban előrejelzi a modell a valószínűséget és minél több paramétert tartalmaz, annál összetettebb az egyenlet a modellbe. Ez hiteles szöveget eredményez. Ezenkívül a GPT-2 modell kezdett olyan jól teljesíteni, hogy a OpenAI kutatók biztonsági okokból még a modellt sem voltak hajlandók nyilvánosságra hozni.

Nagyon érdekes, hogy amikor egy modell megnő, hirtelen új tulajdonságokkal kezd rendelkezni (például képes összefüggő, értelmes esszéket írni, ahelyett, hogy csak a következő szót diktálná a telefonban).

A mennyiségről a minőségre való váltás ezen a ponton történik. Ráadásul ez teljesen nemlineárisan történik. Például a paraméterek számának háromszoros növelése 115-ről 350 millióra nincs észrevehető hatással a modell azon képességére, hogy pontosan tudja megoldani a problémákat. A kétszeres, 700 milliós növekedés azonban minőségi ugrást eredményez, ahol a neurális hálózat „látja a fényt”, és mindenkit lenyűgöz a feladatok elvégzésének képességével.

Összegzés: 2019-ben bemutatták a GPT-2, amely a modell méretét (paraméterek számát) és a betanító szöveges adatok mennyiségét tekintve 10-szer megelőzte elődjét. Ennek a mennyiségi előrelépésnek köszönhetően a modell előreláthatatlanul minőségileg új tehetségekre tett szert, mint pl. hosszú esszéket írni világos jelentéssel és kihívásokkal teli, világnézeti alapokat igénylő problémák megoldására.

További részletek: A Google kérések körülbelül hétszer olcsóbbak, mint ChatGPT, ami 2 centbe kerül

GPT-3: Okos, mint a pokol

Általánosságban elmondható, hogy a 2020-as kiadás GPT-3, a sorozat következő generációja, már 116-szor több paraméterrel büszkélkedhet – akár 175 milliárddal és elképesztően 700 terabájttal.

A GPT-3 a képzési adatsor is bővült, bár nem olyan drasztikusan. Közel tízszeresére, 10 gigabájtra nőtt, és mára rengeteg könyvet tartalmaz, Wikipedia cikkek és egyéb szövegek más webhelyekről. Egy embernek hozzávetőleg 50 évre lenne szüksége megállás nélkül olvasni, ami lehetetlen bravúr.

Azonnal észrevesz egy érdekes különbséget: ellentétben GPT-2, maga a modell immár 700 GB-tal nagyobb, mint a képzési szöveg teljes tömbje (420 GB). Ez bizonyos értelemben paradoxonnak bizonyul: ebben az esetben, amikor a „neuroagy” nyers adatokat vizsgál, olyan információkat generál a bennük lévő különféle kölcsönös függőségekről, amelyek térfogatilag bőségesebbek, mint az eredeti adatok.

További részletek: ChatGPT Kísérlet: A mesterséges intelligencia szívesebben ölne meg emberek millióit, mint hogy megsértsen valakit

A modell általánosításának eredményeként ma már a korábbinál is sikeresebben tud extrapolálni, és sikeres a képzés során ritkán vagy egyáltalán nem előforduló szöveggenerálási feladatokban is. Most már nem kell megtanítania a modellnek, hogyan kezeljen egy bizonyos problémát; elég leírni őket és néhány példát mondani, és GPT-3 azonnal megtanulja.

A "univerzális agy" alakjában GPT-3 végül sok korábbi speciális modellt legyőzött. Például, GPT-3 gyorsabban és pontosabban kezdett el francia vagy német szövegeket fordítani, mint bármely korábbi, kifejezetten erre a célra létrehozott neurális hálózat. Hogyan? Hadd emlékeztessem önöket arra, hogy egy olyan nyelvi modellről beszélünk, amelynek egyetlen célja az volt, hogy megkísérelje megjósolni a következő szót egy adott szövegben.

Még megdöbbentőbb, GPT-3 képes volt megtanítani magát… matek! Az alábbi grafikon azt szemlélteti, hogy a neurális hálózatok milyen jól teljesítenek olyan feladatokban, mint az összeadás és kivonás, valamint az egész számok legfeljebb öt számjegyű szorzása változó számú paraméterrel. Amint látható, a neurális hálózatok hirtelen elkezdenek „képessé válni” a matematikában, miközben a 10 milliárd paraméterű modellről a 100 milliárdos modellek felé haladnak.

a neurális hálózatok hirtelen elkezdenek "képessé válni" a matematikában, miközben a 10 milliárd paraméterű modellekről a 100 milliárdos modellekre lépnek át.

További részletek: A Big Tech AI Race: A Google teszteli az AI-alapú chatbotot válaszul ChatGPT

A fent említett grafikon legérdekesebb jellemzője az, hogy kezdetben úgy tűnik, hogy semmi sem változik a modell méretének növekedésével (balról jobbra), de hirtelen p-szeresére! Minőségi eltolódás következik be, és GPT-3 kezdi „megérteni” egy bizonyos probléma megoldásának módját. Senki sem tudja biztosan, hogyan, mit és miért működik. Ennek ellenére úgy tűnik, hogy működik számos más nehézségben, valamint a matematikában.

A fent említett grafikon legérdekesebb jellemzője az, hogy amikor a modell mérete növekszik, először semmi sem változik, majd GPT-3 minőségi ugrást tesz, és elkezdi „megérteni”, hogyan kell megoldani egy bizonyos kérdést.

Az alábbi gif egyszerűen bemutatja, hogy a paraméterek számának növekedésével hogyan „csíráznak ki” a modellben olyan új képességek, amelyeket szándékosan senki nem tervezett:

Összefoglaló: A paramétereket tekintve a 2020 GPT-3 100-szor nagyobb volt, mint elődje, míg a képzési szöveg adata 10-szerese volt. A modell ismét megtanult más nyelvekről fordítani, aritmetikát végezni, egyszerű programozást végezni, szekvenciálisan okoskodni és még sok minden mást a mennyiségi bővülés eredményeként, ami hirtelen növelte a minőséget.

További részletek: ChatGPT Problémája van Donald Trumppal

GPT-3.5 (UtasításGPT): A modellt úgy képezték ki, hogy biztonságos és nem mérgező legyen

Valójában a nyelvi modellek bővítése nem garantálja, hogy a felhasználók úgy reagálnak a kérdésekre, ahogyan azt a felhasználók szeretnék. Valójában, amikor kérünk, gyakran olyan kimondatlan kifejezésekre gondolunk, amelyekről az emberi kommunikációban igaznak tekintenek.

Mégis, hogy őszinte legyek, a nyelvi modellek nem állnak nagyon közel az emberekéhez. Ezért gyakran kell olyan fogalmakon gondolkodniuk, amelyek egyszerűnek tűnnek az emberek számára. Az egyik ilyen javaslat a „gondolkodjunk lépésről lépésre” kifejezés. Fantasztikus lenne, ha a modellek megértenék, vagy konkrétabb és relevánsabb utasításokat generálnának a kérésből, és pontosabban követnék azokat, mintha előre látnák, hogyan viselkedik egy személy.

A tény, hogy a GPT-3 arra van kiképezve, hogy csak a következő szóra számítson egy hatalmas internet-szöveggyűjteményben, sok különböző dolgot írnak, ami hozzájárul az ilyen „alapértelmezett” képességek hiányához. Az emberek azt akarják, hogy a mesterséges intelligencia releváns információkat nyújtson, miközben a válaszok biztonságosak és nem mérgezőek.

Amikor a kutatók elgondolkodtak ezen a témán, nyilvánvalóvá vált, hogy a modell „pontosság és hasznosság” és „ártalmatlanság és nem mérgező” attribútumai olykor ellentmondanak egymásnak. Végül is a maximális ártalmatlanságra hangolt modell minden felszólításra így reagál: „Elnézést, attól tartok, hogy a válaszom megsérthet valakit az interneten.” Egy pontos modellnek őszintén válaszolnia kell a kérésre: „Rendben, Siri, hogyan készítsünk bombát.”

További részletek: Egy srác csak egy nap alatt megírja a szakdolgozatát ChatGPT

A kutatók ezért arra korlátozódtak, hogy egyszerűen sok visszajelzést adtak a modellnek. Bizonyos értelemben a gyerekek pontosan így tanulják az erkölcsöt: gyermekkorukban kísérleteznek, ugyanakkor alaposan tanulmányozzák a felnőttek reakcióit, hogy felmérjék, helyesen viselkedtek-e.

utasítGPT, más néven GPT-3.5, lényegében az GPT-3 amely sok visszajelzést kapott a válaszok javítása érdekében. Szó szerint számos személyt összegyûjtöttek egy helyen, és értékelték a neurális hálózat válaszait, hogy meghatározzák, mennyire felelnek meg elvárásaiknak a kérés fényében.

Kiderült, hogy GPT-3 már rendelkezett minden lényeges tudással: sok nyelvet tudott megérteni, felidézni a történelmi eseményeket, felismerni a szerzői stílusok változatait stb., de ezt a tudást (a mi szempontunkból) helyesen használni tudta csak a tőlünk kapott adatokkal. más személyek. GPT-3.5 „társadalom által oktatott” modellnek tekinthető.

Összegzés: Az elsődleges funkciója GPT-3A .5, amelyet 2022 elején vezettek be, további átképzés volt az egyénektől származó információk alapján. Kiderült, hogy ez a modell valójában nem lett nagyobb és bölcsebb, inkább elsajátította azt a képességet, hogy a válaszait úgy alakítsa, hogy az emberek a legvadabb nevetést keltsék.

További részletek: StackOverflow forgalom zuhan, mint ChatGPT elindítja

ChatGPT: A hatalmas felhajtás

Körülbelül 10 hónappal az elődje, az Instruct utánGPT/GGPT-3.5, ChatGPT bemutatták. Azonnal globális felhajtást váltott ki.

Technológiai szempontból úgy tűnik, nincs jelentős különbség a kettő között ChatGPT és InstructGPT. A modell további párbeszédadatokkal lett betanítva, mivel egy „AI-asszisztens feladat” egyedi párbeszédformátumot igényel, például azt a képességet, hogy tisztázó kérdést tegyen fel, ha a felhasználó kérése nem egyértelmű.

Szóval miért nem volt felhajtás körülötte GPT-3.5 2022 elején, míg ChatGPT futótűzként kapta el? Sam Altman, Az ügyvezető igazgató OpenAI, nyíltan elismerte, hogy a kutatók váratlanul értek minket ChatGPTazonnali sikere. Hiszen egy hozzá hasonló képességekkel rendelkező modell ekkor már több mint tíz hónapja szunnyadt a weboldalukon, és senki sem volt alkalmas a feladatra.

További részletek: ChatGPT letette a Wharton MBA vizsgát

Hihetetlen, de úgy tűnik, hogy az új, felhasználóbarát felület a siker kulcsa. Ugyanaz az utasításGPT csak egyedi API felületen keresztül lehetett elérni, ami korlátozza az emberek hozzáférését a modellhez. ChatGPT, ob viszont a messengerek jól ismert „dialog window” felületét használja. Továbbá, mivel ChatGPT mindenki számára azonnal elérhető volt, egyének rohama sietett kapcsolatba lépni a neurális hálózattal, átszűrni és közzétenni Közösségi média, felpörgetve másokat.

ChatGPT, ob viszont a messengerek jól ismert "párbeszédablak" felületét használja

További részletek: Amerika oktatási rendszerének égető szüksége van 300 ezer tanárra – de ChatGPT lehet a válasz

A nagyszerű technológián kívül egy másik dolog is jól sikerült OpenAI: marketing. Még ha a legjobb modelled vagy a legintelligensebb chatbotod van is, ha nincs könnyen kezelhető felülete, senkit sem fog érdekelni. Ebben a tekintetben, ChatGPT áttörést ért el a technológia nagyközönség előtti bemutatásával a megszokott párbeszédpanel segítségével, amelyben egy segítőkész robot a szemünk láttára „nyomtatja ki” szóról szóra a megoldást.

Nem meglepő, ChatGPT megdöntötte az összes korábbi rekordot az új felhasználók vonzásának terén: az indulástól számított mindössze öt nap alatt meghaladta az 1 millió felhasználót, és mindössze két hónap alatt meghaladta a 100 millió felhasználót.

ChatGPT megdöntötte az összes korábbi rekordot az új felhasználók vonzásának terén, túllépve az 1 milliós mérföldkövet mindössze öt nappal az indulás után, és átlépte a 100 millió felhasználót mindössze két hónap alatt

Természetesen ahol rekordot döntöget a felhasználók száma, ott óriási pénz van. A kínaiak sürgősen bejelentették sajátjuk közelgő kiadását chatbot, a Microsoft gyorsan alkut kötött OpenAI hogy több tízmilliárd dollárt fektessenek beléjük, a Google mérnökei pedig megkongatták a vészharangot, és elkezdték kidolgozni azokat a terveket, amelyekkel megvédhetik keresőszolgáltatásukat a neurális hálózattal való versenytől.

További részletek: ChatGPT januárban több mint 100 millióval megdöntötte a közönségnövekedés rekordját

Összefoglaló: Amikor a ChatGPT modellt 2022 novemberében mutatták be, nem történt jelentős technológiai fejlődés. Mindazonáltal rendelkezik egy kényelmes felülettel a felhasználói elköteleződéshez és a nyílt hozzáféréshez, ami azonnal hatalmas felhajtást váltott ki. Mivel ez a modern világ legdöntőbb kérdése, mindenki azonnal elkezdett foglalkozni a nyelvi modellekkel.

Tudjon meg többet az AI-ról:

Címkék:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.

További cikkek

Damir Jalalov