Maaliskuussa 09, 2023

Chatbottien kehitys T9-Eran ja GPT-1 että ChatGPT

Julkaistu: 09. maaliskuuta 2023 klo 4 Päivitetty: 00. maaliskuuta 09 klo 2023

Viime aikoina meitä on pommitettu lähes päivittäin uutispostauksilla uusista suurten hermoverkkojen rikkomista ennätyksistä ja siitä, miksi melkein kenenkään työ ei ole turvallista. Siitä huolimatta vain harvat ihmiset ovat tietoisia siitä, kuinka hermoverkot pitävät ChatGPT todella toimivat.

Joten, rentoudu. Älä vielä valittele työnäkymiäsi. Tässä viestissä selitämme kaiken, mitä on tiedettävä neuroverkoista tavalla, jonka jokainen voi ymmärtää.

Chatbottien kehitys T9-Eran ja GPT-1 että ChatGPT ja Bart

Varoitus ennen kuin aloitamme: Tämä teos on yhteistyö. Koko teknisen osan on kirjoittanut AI-asiantuntija, joka on tunnettu tekoälyjoukon keskuudessa.

Koska kukaan ei ole vielä kirjoittanut syvällistä artikkelia siitä, miten ChatGPT teoksia, jotka selittäisivät maallikollisesti hermoverkkojen jk läpikotaisin, päätimme tehdä tämän puolestasi. Olemme yrittäneet pitää tämän viestin mahdollisimman yksinkertaisena, jotta lukijat voivat tulla tämän viestin lukemisen jälkeen ymmärtämään yleisesti kielen neuroverkkojen periaatteet. Selvitämme kuinka kielimalleja työskentelevät siellä, kuinka hermoverkot kehittyivät nykyisten kykyjensä käyttöön ja miksi ChatGPTräjähdysmäinen suosio yllätti jopa sen tekijät.

Aloitetaan perusasioista. Ymmärtää ChatGPT teknisestä näkökulmasta meidän on ensin ymmärrettävä, mitä se ei ole. Tämä ei ole Marvel Comicsin Jarvis; se ei ole rationaalinen olento; se ei ole henki. Valmistaudu järkytyksi: ChatGPT on itse asiassa matkapuhelimesi T9 steroideilla! Kyllä, se on: Tutkijat kutsuvat molempia tekniikoita nimellä "kielimallit." Neuroverkot tekevät vain arvailun, minkä sanan pitäisi tulla seuraavaksi.

Alkuperäinen T9-tekniikka vain nopeutti näppäinvalintaa arvaamalla nykyisen syötteen seuraavan sanan sijaan. Tekniikka kuitenkin kehittyi, ja älypuhelimien aikakaudella 2010-luvun alussa se pystyi huomioimaan kontekstin ja sanan ennen, lisäämään välimerkkejä ja tarjoamaan valikoiman sanoja, jotka voisivat mennä seuraavaksi. Juuri tämän analogian teemme tällaisen T9:n "edistyneen" version tai automaattisen korjauksen kanssa.

Tämän seurauksena sekä T9 älypuhelimen näppäimistöllä että ChatGPT on koulutettu ratkaisemaan naurettavan yksinkertaisen tehtävän: seuraavan sanan ennustaminen. Tätä kutsutaan "kielen mallintamiseksi", ja se tapahtuu, kun olemassa olevan tekstin perusteella päätetään, mitä seuraavaksi kirjoitetaan. Kielimallien on käytettävä tiettyjen sanojen esiintymistodennäköisyyksiä voidakseen tehdä tällaisia ennusteita. Loppujen lopuksi sinua suuttuisi, jos puhelimesi automaattinen täyttö vain heittäisi sinulle täysin satunnaisia sanoja samalla todennäköisyydellä.

Selvyyden vuoksi kuvitellaan, että saat viestin ystävältäsi. Siinä lukee: "Mitä suunnitelmia sinulla on illaksi?" Vastauksena alat kirjoittaa: "Aion…", ja tässä T9 tulee mukaan. Se voi saada aikaan täysin järjettömiä asioita, kuten "menen kuuhun", eikä monimutkaista kielimallia tarvita. Hyvät älypuhelimen automaattisen täydennyksen mallit ehdottavat paljon osuvampia sanoja.

Joten, mistä T9 tietää, mitkä sanat todennäköisemmin seuraavat jo kirjoitettua tekstiä ja mitkä eivät selvästikään ole järkeviä? Jotta voimme vastata tähän kysymykseen, meidän on ensin tarkasteltava yksinkertaisimpien toimintaperiaatteita hermoverkkoihin.

Sisällysluettelo

Kuinka tekoälymallit ennustavat seuraavan sanan
Miksi yritämme jatkuvasti löytää "oikeita" sanoja annetulle tekstille?
GPT-1: Teollisuuden räjäyttäminen
GPT-2: Suurten kielimallien aika
GPT-3: Helvetin älykäs
GPT-3.5 (OhjeGPT): Malli on koulutettu olemaan turvallinen ja myrkytön
ChatGPT: Massive Suge of Hype

More: ChatGPT API on nyt saatavilla, avaa tulvaportin kehittäjille

Kuinka tekoälymallit ennustavat seuraavan sanan

Aloitetaan yksinkertaisemmalla kysymyksellä: Kuinka ennustat joidenkin asioiden keskinäisen riippuvuuden muista? Oletetaan, että haluamme opettaa tietokoneen ennustamaan henkilön painon pituuden perusteella – miten meidän pitäisi toimia? Meidän pitäisi ensin tunnistaa kiinnostuksen kohteet ja sitten kerätä tietoja, joiden perusteella voitaisiin etsiä kiinnostuksen kohteiden riippuvuuksia, ja sitten yrittää "kouluttaa" jotain matemaattista mallia etsiä malleja näistä tiedoista.

Yksinkertaisesti sanottuna T9 tai ChatGPT ovat vain taitavasti valittuja yhtälöitä, jotka yrittävät ennustaa sana (Y), joka perustuu mallin syötteeseen syötettyjen aikaisempien sanojen joukkoon (X). Kun harjoittelet a kielimalli tietojoukossa päätehtävänä on valita kertoimet näille x:ille, jotka todella heijastavat jonkinlaista riippuvuutta (kuten esimerkissämme pituuden ja painon kanssa). Ja suurilla malleilla saamme paremman käsityksen niistä, joilla on suuri määrä parametreja. Alalla tekoäly, niitä kutsutaan suuriksi kielimalleiksi tai lyhyesti LLM:iksi. Kuten tulemme myöhemmin näkemään, suuri malli, jossa on monia parametreja, on välttämätön hyvän tekstin luomiseksi.

Muuten, jos ihmettelet, miksi puhumme jatkuvasti "yhden seuraavan sanan ennustamisesta". ChatGPT vastaa nopeasti kokonaisilla tekstikappaleilla, vastaus on yksinkertainen. Toki kielimallit voivat tuottaa pitkiä tekstejä ilman vaikeuksia, mutta koko prosessi on sana sanalta. Kun jokainen uusi sana on luotu, malli yksinkertaisesti suorittaa koko tekstin uudelleen uuden sanan kanssa seuraavan sanan luomiseksi. Prosessi toistuu yhä uudelleen ja uudelleen, kunnes saat koko vastauksen.

More: ChatGPT Voi aiheuttaa peruuttamatonta ihmisen rappeutumista

Miksi yritämme jatkuvasti löytää "oikeita" sanoja annetulle tekstille?

Kielimallit yrittävät ennustaa eri sanojen todennäköisyyksiä, joita tietyssä tekstissä esiintyy. Miksi tämä on välttämätöntä, ja miksi et voi vain etsiä "oikeinta" sanaa? Kokeillaan yksinkertaista peliä tämän prosessin havainnollistamiseksi.

Säännöt ovat seuraavat: Ehdotan, että jatkat lausetta: "Yhdysvaltojen 44. presidentti (ja ensimmäinen afrikkalainen amerikkalainen tässä asemassa) on Barak…". Minkä sanan pitäisi mennä seuraavaksi? Mikä on todennäköisyys, että se tapahtuu?

Miksi yritämme jatkuvasti löytää "oikeita" sanoja annetulle tekstille?

Jos ennustit 100 % varmuudella, että seuraava sana olisi "Obama", olit väärässä! Ja pointti tässä ei ole se, että on olemassa toinen myyttinen Barak; se on paljon triviaalimpaa. Virallisissa asiakirjoissa käytetään yleensä presidentin koko nimeä. Tämä tarkoittaa, että Obaman etunimeä seuraa hänen toinen nimi Hussein. Joten meidän lauseessamme oikein koulutetun kielimallin pitäisi ennustaa, että "Obama" on seuraava sana vain ehdollisella todennäköisyydellä 90%, ja jakaa loput 10%, jos tekstiä jatkaa "Hussein" (jonka jälkeen Obama seuraa lähes 100 %:n todennäköisyydellä.

Ja nyt päästään kielimallien kiehtovaan osa-alueeseen: ne eivät ole immuuneja luoville juonoille! Itse asiassa luodessaan jokaista seuraavaa sanaa tällaiset mallit valitsevat sen "satunnaisella" tavalla, aivan kuin heittäisivät noppaa. Todennäköisyys eri sanojen "putoamiseen" vastaa enemmän tai vähemmän malliin lisättyjen yhtälöiden ehdottamia todennäköisyyksiä. Nämä ovat peräisin valtavasta valikoimasta erilaisia tekstejä, joita malli syötti.

Osoittautuu, että malli voi vastata eri tavalla samoihin pyyntöihin, aivan kuten elävä ihminen. Tutkijat ovat yleensä yrittäneet pakottaa neuronit valitsemaan aina "todennäköisimmän" seuraavan sanan, mutta vaikka tämä näyttää pinnalta järkevältä, tällaiset mallit toimivat todellisuudessa huonommin. Näyttää siltä, että kohtuullinen annos satunnaisuutta on eduksi, koska se lisää vastausten vaihtelua ja laatua.

Tutkijat ovat yleensä yrittäneet pakottaa neuronit valitsemaan aina "todennäköisimmän" seuraavan sanan, mutta vaikka tämä näyttää pinnalta järkevältä, tällaiset mallit toimivat todellisuudessa huonommin.

More: ChatGPT Oppii ohjaamaan droneja ja robotteja pohtiessaan seuraavan sukupolven tekoälyä

Kielellämme on ainutlaatuinen rakenne, jossa on erilaisia sääntöjä ja poikkeuksia. Lauseessa esiintyville sanoille on riimi ja syy, ne eivät tapahdu vain sattumanvaraisesti. Jokainen oppii alitajuisesti käyttämänsä kielen säännöt varhaisina kehitysvuosinaan.

Kunnollisessa mallissa tulee ottaa huomioon kielen laaja kuvailualue. Mallin kyky tuottaa haluttuja tuloksia riippuu siitä, kuinka tarkasti se laskee sanojen todennäköisyydet kontekstin vivahteiden perusteella (edellinen tekstin osio, joka selittää asian).

Mallin kyky tuottaa haluttuja tuloksia riippuu siitä, kuinka tarkasti se laskee sanojen todennäköisyydet kontekstin hienouksien perusteella (edellinen tekstin osio, joka selittää tilanteen).

Yhteenveto: Yksinkertaisia kielimalleja, jotka ovat joukko yhtälöitä, jotka on koulutettu valtavaan tietomäärään ennustamaan seuraava sana syöttölähdetekstin perusteella, on otettu käyttöön älypuhelimien "T9/Autofill"-toiminnallisuudessa 2010-luvun alusta lähtien.

More: Kiina kieltää yrityksiä käyttämästä ChatGPT "True News" -skandaalin jälkeen

GPT-1: Teollisuuden räjäyttäminen

Siirrytään pois T9-malleista. Kun luultavasti luet tätä kappaletta oppia ChatGPT, ensinnäkin meidän on keskusteltava alkuvaiheista GPT malliperhe.

GPT tarkoittaa "generatiivista esikoulutettua muuntajaa", kun taas Googlen insinöörien kehittämä hermoverkkoarkkitehtuuri vuonna 2017 tunnetaan nimellä Transformer. Muuntaja on universaali laskentamekanismi, joka hyväksyy syötteeksi joukon sekvenssejä (dataa) ja tuottaa saman sekvenssijoukon, mutta eri muodossa, jota jokin algoritmi on muuttanut.

Transformerin luomisen merkitys näkyy siinä, kuinka aggressiivisesti sitä otettiin käyttöön ja sovellettiin kaikilla tekoälyn (AI) aloilla: käännöksissä, kuvan, äänen ja videon käsittelyssä. Tekoälysektorilla tapahtui voimakas järistys, joka siirtyi niin kutsutusta "AI-pysähdyksestä" nopeaan kehitykseen ja pysähtyneisyyden voittamiseen.

More: GPT-4-Perustuu ChatGPT päihittää GPT-3 kertoimella 570

Transformerin vahvuus koostuu helposti skaalautuvista moduuleista. Kun pyydetään käsittelemään suuri määrä tekstiä kerralla, vanhat, muuntajaa edeltävät kielimallit hidastuvat. Toisaalta muuntajahermoverkot hoitavat tämän tehtävän paljon paremmin.

Aiemmin syöttötiedot piti käsitellä peräkkäin tai yksi kerrallaan. Malli ei säilyttäisi tietoja: Jos se toimisi yksisivuisen narratiivin kanssa, se unohtaisi tekstin lukemisen jälkeen. Samaan aikaan Transformerin avulla voi tarkastella kaikkea kerralla, tuottavat huomattavasti upeampia tuloksia.

Tämä mahdollisti läpimurron neuroverkkojen tekstien käsittelyssä. Tämän seurauksena malli ei enää unohda: se käyttää uudelleen aiemmin kirjoitettua materiaalia, ymmärtää paremmin kontekstin ja mikä tärkeintä, pystyy luomaan yhteyksiä erittäin suurten tietomäärien välille yhdistämällä sanoja yhteen.

Yhteenveto: GPT-1, joka debytoi vuonna 2018, osoitti, että neuroverkko voi tuottaa tekstejä käyttämällä Transformer-suunnittelua, mikä on merkittävästi parantanut skaalautuvuutta ja tehokkuutta. Jos kielimallien määrää ja monimutkaisuutta voitaisiin lisätä, se tuottaisi huomattavan reservin.

More: 6 AI ChatBot -ongelmaa ja -haastetta: ChatGPT, Bard, Claude

GPT-2: Suurten kielimallien aika

Kielimalleja ei tarvitse erikseen merkitä etukäteen, ja ne voidaan "syöttää" millä tahansa tekstitiedolla, mikä tekee niistä erittäin joustavia. Jos mietit sitä, näyttää järkevältä, että haluamme käyttää sen kykyjä. Kaikki koskaan kirjoitettu teksti toimii valmiina harjoitustietona. Koska "paljon joitain sanoja ja lauseita => niiden jälkeen seuraava sana" -tyyppisiä sekvenssejä on jo niin paljon, tämä ei ole yllättävää.

More: ChatGPT's Evil Elter Ego Awakened Redditissä

Pidetään nyt myös mielessä, että Transformers-tekniikkaa testattiin GPT-1 osoittautui varsin onnistuneeksi skaalauksen suhteen: Se on huomattavasti edeltäjäänsä tehokkaampi suurten tietomäärien käsittelyssä. Osoittautuu, että tutkijat OpenAI tuli samaan johtopäätökseen vuonna 2019: "On aika leikata kalliita kielimalleja!"

- koulutustietojoukko ja malli erityisesti koko valittiin kahdeksi keskeiseksi alueeksi GPT-2 oli parannettava huomattavasti.

Koska tuolloin ei ollut olemassa valtavia, laadukkaita julkisia tekstidatajoukkoja, jotka olisi suunniteltu erityisesti kielimallien harjoitteluun, jokaisen tekoälyasiantuntijaryhmän oli manipuloitava tietoja itse. The OpenAI ihmiset päättivät sitten mennä Redditiin, suosituimpaan englanninkieliseen foorumiin, ja poimia kaikki hyperlinkit jokaisesta viestistä, jolla oli enemmän kuin kolme tykkäystä. Näitä linkkejä oli lähes 8 miljoonaa ja ladatut tekstit painoivat yhteensä 40 teratavua.

More: Microsoft kaupallistaa ChatGPT kun se pyrkii auttamaan muita yrityksiä

Kuinka monta parametria yhtälöllä oli suurin GPT-2 malli vuonna 2019 on? Ehkä sata tuhatta tai muutama miljoona? No, mennään vielä pidemmälle: kaava sisälsi jopa 1.5 miljardia tällaista parametria. Vie 6 teratavua, jotta voit kirjoittaa niin monta numeroa tiedostoon ja tallentaa sen tietokoneellesi. Mallin ei tarvitse muistaa tätä tekstiä kokonaisuutena, joten toisaalta tämä on paljon pienempi kuin sen tekstidatataulukon kokonaismäärä, jolla malli on koulutettu; riittää, että se löytää yksinkertaisesti joitain riippuvuuksia (kuvioita, sääntöjä), jotka voidaan eristää ihmisten kirjoittamista teksteistä.

Mitä paremmin malli ennustaa todennäköisyyden ja mitä enemmän se sisältää parametreja, sitä monimutkaisempi yhtälö on kytketty malliin. Tästä tulee uskottava teksti. Lisäksi, GPT-2 malli alkoi toimia niin hyvin, että OpenAI Tutkijat olivat jopa haluttomia paljastamaan mallia julkisuuteen turvallisuussyistä.

On erittäin mielenkiintoista, että kun mallista tulee isompi, se alkaa yhtäkkiä saada uusia ominaisuuksia (kuten kyky kirjoittaa yhtenäisiä, merkityksellisiä esseitä sen sijaan, että vain sanella seuraava sana puhelimessa).

Muutos määrästä laatuun tapahtuu tässä vaiheessa. Lisäksi se tapahtuu täysin epälineaarisesti. Esimerkiksi parametrien lukumäärän kolminkertaisuudella 115 miljoonasta 350 miljoonaan ei ole havaittavaa vaikutusta mallin kykyyn ratkaista ongelmia tarkasti. Kaksinkertainen kasvu 700 miljoonaan tuottaa kuitenkin laadullisen harppauksen, jossa hermoverkko "näkee valon" ja alkaa hämmästyttää kaikkia kyvyllään suorittaa tehtäviä.

Yhteenveto: 2019 otettiin käyttöön GPT-2, joka ylitti 10 kertaa edeltäjänsä mallin koon (parametrien lukumäärän) ja opetustekstidatan määrän suhteen. Tämän määrällisen kehityksen ansiosta malli hankki odottamattomasti laadullisesti uusia kykyjä, kuten kyvyn kirjoittaa pitkiä esseitä selkeällä merkityksellä ja ratkaisemaan haastavia ongelmia, jotka vaativat maailmankatsomuksen perustaa.

More: Google-pyynnöt ovat noin seitsemän kertaa halvempia kuin ChatGPT, joka maksaa 2 senttiä

GPT-3: Helvetin älykäs

Yleensä vuoden 2020 julkaisu GPT-3, sarjan seuraava sukupolvi, tarjoaa jo 116 kertaa enemmän parametreja – jopa 175 miljardia ja hämmästyttävät 700 teratavua.

- GPT-3 Myös koulutustietojoukkoa laajennettiin, joskaan ei niin rajusti. Se kasvoi lähes 10-kertaiseksi 420 gigatavuun ja sisältää nyt suuren määrän kirjoja, WikiPedia-artikkeleita ja muita tekstejä muilta verkkosivustoilta. Se vaatisi ihmiseltä noin 50 vuotta jatkuvaa lukemista, mikä tekisi siitä mahdoton suoritus.

Huomaat heti kiehtovan eron: toisin kuin GPT-2, itse malli on nyt 700 Gt suurempi kuin koko koulutukseen tarkoitettu tekstijoukko (420 Gt). Se osoittautuu tietyssä mielessä paradoksiksi: tässä tapauksessa "neuroaivot" tutkiessaan raakadataa, se tuottaa tietoa erilaisista keskinäisistä riippuvuuksista niiden sisällä, joka on volyymillisesti runsaampaa kuin alkuperäinen data.

More: ChatGPT Kokeilu: Tekoäly tappaisi mieluummin miljoonia ihmisiä kuin loukkaisi jotakuta

Mallin yleistyksen seurauksena se pystyy nyt ekstrapoloimaan entistä tehokkaammin ja onnistuu myös harvoin tai ei ollenkaan harjoittelun aikana esiintyvissä tekstintuotantotehtävissä. Nyt sinun ei tarvitse opettaa mallille kuinka ratkaista tietty ongelma; riittää kuvailemaan niitä ja antamaan muutamia esimerkkejä, ja GPT-3 oppii heti.

- "universaalit aivot" muodossa GPT-3 lopulta voitti monet aikaisemmat erikoismallit. Esimerkiksi, GPT-3 alkoi kääntää tekstejä ranskasta tai saksasta nopeammin ja tarkemmin kuin mikään aikaisempi erityisesti tätä tarkoitusta varten luotu neuroverkko. Miten? Haluan muistuttaa, että keskustelemme kielellisestä mallista, jonka ainoana tavoitteena oli yrittää ennustaa seuraava sana tietyssä tekstissä.

Vielä hämmästyttävämpää, GPT-3 pystyi opettamaan itsensä… matematiikkaa! Alla oleva kaavio havainnollistaa, kuinka hyvin neuroverkot toimivat tehtävissä, mukaan lukien yhteen- ja vähennyslasku sekä kokonaislukujen kertominen viiteen numeroon asti vaihtelevilla parametreilla. Kuten näette, hermoverkot alkavat yhtäkkiä "pystyä" matematiikassa siirtyessään 10 miljardin parametrin malleista 100 miljardiin.

hermoverkot alkavat yhtäkkiä "pystyä" matematiikassa siirtyessään 10 miljardin parametrin malleista 100 miljardin parametrin malleihin

More: Big Techin AI Race: Google testaa tekoälyllä toimivaa chatbotia vastauksena ChatGPT

Mielenkiintoisin piirre edellä mainitussa kaaviossa on se, että aluksi mikään ei näytä muuttuvan mallin koon kasvaessa (vasemmalta oikealle), mutta yhtäkkiä p kertaa! Tapahtuu laadullinen muutos ja GPT-3 alkaa "ymmärtää" kuinka ratkaista tietty ongelma. Kukaan ei ole varma siitä, miten, mitä tai miksi se toimii. Silti se näyttää toimivan monissa muissa vaikeuksissa sekä matematiikassa.

Mielenkiintoisin piirre edellä mainitussa kaaviossa on, että kun mallin koko kasvaa, ensinnäkin mikään ei näytä muuttuvan, ja sitten GPT-3 tekee laadullisen harppauksen ja alkaa "ymmärtää" kuinka ratkaista tietty ongelma.

Alla oleva gif yksinkertaisesti osoittaa, kuinka uusia kykyjä, joita kukaan ei tarkoituksella suunniteltu, "itää" malliin parametrien määrän kasvaessa:

Yhteenveto: Parametreilla mitattuna 2020 GPT-3 oli 100 kertaa suurempi kuin edeltäjänsä, kun taas harjoitustekstidata oli 10 kertaa suurempi. Jälleen kerran malli oppi kääntämään muista kielistä, suorittamaan aritmetiikkaa, suorittamaan yksinkertaista ohjelmointia, järkeilemään peräkkäin ja paljon muuta äkillisesti laatua nostaneen määrän kasvun seurauksena.

More: ChatGPT Hänellä on ongelma Donald Trumpin kanssa

GPT-3.5 (OhjeGPT): Malli on koulutettu olemaan turvallinen ja myrkytön

Todellisuudessa kielimallien laajentaminen ei takaa, että se reagoi kyselyihin käyttäjien haluamalla tavalla. Itse asiassa, kun teemme pyynnön, tarkoitamme usein useita lausumattomia termejä, joiden oletetaan ihmisten välisessä kommunikaatiossa olevan totta.

Rehellisesti sanottuna kielimallit eivät kuitenkaan ole kovin lähellä ihmisten mallia. Siksi heidän on usein pohdittava käsitteitä, jotka näyttävät ihmisille yksinkertaisilta. Yksi tällainen ehdotus on lause "ajattelemme askel askeleelta". Olisi mahtavaa, jos mallit ymmärtäisivät tai synnyttäisivät pyynnöstä tarkempia ja osuvampia ohjeita ja seuraisivat niitä tarkemmin ikään kuin ennakoiden, miten henkilö olisi käyttäytynyt.

Se, että GPT-3 on koulutettu ennakoimaan vain seuraavan sanan massiivisessa Internetin tekstikokoelmassa, kirjoitetaan paljon erilaisia asioita, mikä edistää tällaisten "oletuskykyjen" puuttumista. Ihmiset haluavat tekoälyn tarjoavan olennaista tietoa, pitäen samalla vastaukset turvassa ja myrkyttömänä.

Kun tutkijat pohtivat tätä asiaa, kävi selväksi, että mallin ominaisuudet "tarkkuus ja käyttökelpoisuus" ja "haitattomuus ja myrkyttömyys" näyttivät joskus olevan ristiriidassa keskenään. Loppujen lopuksi maksimaaliseen vaarattomuuteen viritetty malli reagoi kaikkiin kehotteisiin "Anteeksi, olen huolissani siitä, että vastaukseni voi loukata jotakuta Internetissä." Tarkan mallin pitäisi vastata suoraan pyyntöön: "Hyvä on, Siri, miten luodaan pommi."

More: Mies kirjoittaa opinnäytetyönsä vain yhdessä päivässä ChatGPT

Siksi tutkijat rajoittuivat antamaan mallille paljon palautetta. Tietyssä mielessä juuri näin lapset oppivat moraalia: He kokeilevat lapsuudessa ja samalla tutkivat tarkasti aikuisten reaktioita arvioidakseen, käyttäytyivätkö he oikein.

opettaaGPT, tunnetaan myös GPT-3.5, on pohjimmiltaan GPT-3 joka sai paljon palautetta parantaakseen vastauksiaan. Kirjaimellisesti useita henkilöitä koottiin yhteen paikkaan arvioimaan hermoverkkojen vastauksia määrittääkseen, kuinka hyvin he vastasivat heidän odotuksiaan tekemänsä pyynnön valossa.

On käynyt ilmi, että GPT-3 hänellä on jo kaikki olennainen tieto: Se voi ymmärtää monia kieliä, muistaa historiallisia tapahtumia, tunnistaa tekijätyylien vaihtelut ja niin edelleen, mutta se voi oppia käyttämään tätä tietoa oikein (meidän näkökulmastamme) vain, muita yksilöitä. GPT-3.5 voidaan pitää "yhteiskunnan kouluttamana" mallina.

Yhteenveto: Ensisijainen tehtävä GPT-3.5, joka otettiin käyttöön vuoden 2022 alussa, oli henkilöiden palautteeseen perustuvaa lisäkoulutusta. Osoittautuu, että tämä malli ei ole itse asiassa tullut suuremmaksi ja viisaammaksi, vaan se on hallinnut kyvyn räätälöidä vastauksensa antamaan ihmisille villeimmät naurut.

More: StackOverflow-liikenne romahtaa ChatGPT käynnistää

ChatGPT: Massive Suge of Hype

Noin 10 kuukautta edeltäjänsä Instructin jälkeenGPT/GGPT-3.5, ChatGPT esiteltiin. Se aiheutti välittömästi maailmanlaajuista hypeä.

Teknologisesta näkökulmasta ei näytä olevan merkittäviä eroja ChatGPT ja OhjaaGPT. Mallia on koulutettu lisädialogitiedoilla, koska "AI-avustajatyö" vaatii ainutlaatuisen dialogimuodon, esimerkiksi mahdollisuuden esittää selventävä kysymys, jos käyttäjän pyyntö on epäselvä.

Joten miksi ympärillä ei ollut hypeä GPT-3.5 vuoden 2022 alussa, kun ChatGPT kiinni kuin kulovalkean? Sam Altman, Pääjohtaja OpenAI, myönsi avoimesti, että tutkijat yllättivät meidät ChatGPTvälitön menestys. Loppujen lopuksi malli, jolla oli siihen verrattavissa olevia kykyjä, oli ollut lepotilassa heidän verkkosivuillaan tuolloin yli kymmenen kuukautta, eikä kukaan ollut tehtävänsä tasolla.

More: ChatGPT läpäisee Wharton MBA -kokeen

Se on uskomatonta, mutta näyttää siltä, että uusi käyttäjäystävällinen käyttöliittymä on avain sen menestykseen. Sama ohjeGPT voidaan käyttää vain ainutlaatuisen API-rajapinnan kautta, mikä rajoittaa ihmisten pääsyä malliin. ChatGPT, ob toisaalta, käyttää hyvin tunnettua sanansaattajien "dialog window" -käyttöliittymää. Myös siitä lähtien ChatGPT oli kaikkien saatavilla kerralla, joukko ihmisiä kiirehti olemaan vuorovaikutuksessa hermoverkon kanssa, seulomaan ne ja julkaisemaan ne sosiaalinen media, herättää muita.

ChatGPT, ob toisaalta käyttää hyvin tunnettua sanansaattajien "dialog window" -käyttöliittymää

More: Amerikan koulutusjärjestelmä tarvitsee kipeästi 300 XNUMX opettajaa – mutta ChatGPT voisi olla vastaus

Erinomaisen tekniikan lisäksi toinen asia tehtiin oikein OpenAI: markkinointi. Vaikka sinulla olisi paras malli tai älykkäin chatbot, jos sillä ei ole helppokäyttöistä käyttöliittymää, kukaan ei ole kiinnostunut siitä. Tässä suhteessa, ChatGPT saavutti läpimurron esittelemällä teknologiaa suurelle yleisölle tavanomaisen valintaikkunan avulla, jossa avulias robotti "tulostaa" ratkaisun suoraan silmiemme edessä, sana sanalta.

Ei ole yllättävää, ChatGPT saavutti kaikki aiemmat ennätykset uusien käyttäjien houkuttelemisessa, ylitti miljoonan käyttäjän virstanpylvään vain viidessä päivässä julkaisunsa jälkeen ja ylitti 1 miljoonan käyttäjän rajan kahdessa kuukaudessa.

ChatGPT saavutti kaikki aiemmat ennätykset uusien käyttäjien houkuttelemisessa, ylitti miljoonan käyttäjän virstanpylvään vain viidessä päivässä julkaisun jälkeen ja ylitti 1 miljoonan käyttäjän rajan kahdessa kuukaudessa

Tietysti siellä, missä käyttäjien määrä on ennätyksellisen suuri, on valtavasti rahaa. Kiinalaiset ilmoittivat kiireesti omien julkaisujensa lähestyvästä julkaisusta chatbot, Microsoft teki nopeasti sopimuksen OpenAI sijoittaa niihin kymmeniä miljardeja dollareita, ja Googlen insinöörit soittivat hälytysääntä ja alkoivat laatia suunnitelmia suojellakseen hakupalveluaan hermoverkon kilpailulta.

More: ChatGPT tammikuussa rikkoi yleisökasvuennätyksen yli 100 miljoonalla

Yhteenveto: Kun ChatGPT Malli esiteltiin marraskuussa 2022, siinä ei tapahtunut merkittäviä teknisiä edistysaskeleita. Siinä oli kuitenkin kätevä käyttöliittymä käyttäjien sitoutumista ja avointa käyttöä varten, mikä herätti välittömästi massiivisen hype-tuloksen. Koska tämä on nykymaailman tärkein asia, kaikki alkoivat heti tarttua kielimalleihin.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov