Naujienų ataskaita Technologija
Kovo 09, 2023

T9 eros pokalbių robotų raida ir GPT-1 į ChatGPT

Pastaruoju metu beveik kasdien mus bombarduoja naujienų įrašai apie naujausius rekordus, sumuštus didelio masto neuroninių tinklų, ir apie tai, kodėl beveik niekas nėra saugus. Nepaisant to, labai mažai žmonių žino, kaip patinka neuroniniai tinklai ChatGPT faktiškai veikia.

Taigi, atsipalaiduok. Dar nesigailėkite dėl savo darbo perspektyvų. Šiame įraše mes paaiškinsime viską, ką reikia žinoti apie neuroninius tinklus taip, kad kiekvienas galėtų suprasti.

T9 eros pokalbių robotų raida ir GPT-1 į ChatGPT ir Bartas

Įspėjimas prieš pradedant: šis kūrinys yra bendradarbiavimas. Visą techninę dalį parašė AI specialistas, gerai žinomas tarp AI minios.

Kadangi niekas dar neparašė išsamaus kūrinio apie tai, kaip ChatGPT kūrinius, kurie, liaudiškai tariant, paaiškintų neuroninių tinklų ypatybes, nusprendėme tai padaryti už jus. Stengėmės, kad šis įrašas būtų kuo paprastesnis, kad skaitytojai, skaitydami šį įrašą, bendrai suprastų kalbos neuroninių tinklų principus. Ištirsime kaip kalbos modeliai dirbti ten, kaip neuroniniai tinklai išsivystė, kad turėtų savo dabartines galimybes ir kodėl ChatGPTdidžiulis populiarumas nustebino net jo kūrėjus.

Pradėkime nuo pagrindų. Suprasti ChatGPT žvelgiant iš techninės pusės, pirmiausia turime suprasti, kas tai nėra. Tai ne „Marvel Comics“ Jarvis; tai nėra racionali būtybė; tai ne džinas. Pasiruoškite būti šokiruoti: ChatGPT iš tikrųjų yra jūsų mobiliojo telefono T9 su steroidais! Taip, tai yra: mokslininkai abi šias technologijas vadina „Kalbos modeliai“. Viskas, ką daro neuroniniai tinklai, yra atspėti, koks žodis turėtų būti kitas.

Originali T9 technologija tik paspartino telefono rinkimą spustelėjus mygtukus, nes atspėjo dabartinę įvestį, o ne kitą žodį. Tačiau technologijos pažengė į priekį ir 2010 m. pradžioje išmaniųjų telefonų eroje ji sugebėjo atsižvelgti į kontekstą ir žodį prieš tai, pridėti skyrybos ženklus ir pasiūlyti žodžių, kuriuos būtų galima naudoti toliau, pasirinkimą. Būtent tokią analogiją mes darome su tokia „pažangia“ T9 versija arba automatiniu taisymu.

Dėl to tiek T9 išmaniojo telefono klaviatūroje, tiek ChatGPT buvo išmokyti išspręsti juokingai paprastą užduotį: nuspėti kitą žodį. Tai žinoma kaip „kalbos modeliavimas“ ir tai įvyksta, kai, remiantis esamu tekstu, priimamas sprendimas, ką toliau rašyti. Kalbos modeliai turi veikti pagal konkrečių žodžių atsiradimo tikimybę, kad būtų galima daryti tokias prognozes. Galų gale, jus erzintų, jei jūsų telefono automatinis pildymas tiesiog išmestų jums visiškai atsitiktinius žodžius su ta pačia tikimybe.

Aiškumo dėlei įsivaizduokime, kad gaunate žinutę iš draugo. Jame rašoma: „Kokie tavo planai vakarui? Atsakydami pradedate rašyti: „Aš ketinu...“ ir čia pasirodo T9. Jis gali sugalvoti visiškai nesąmonių dalykų, pvz., „Aš einu į mėnulį“, nereikia sudėtingo kalbos modelio. Geri išmaniųjų telefonų automatinio užbaigimo modeliai siūlo kur kas aktualesnius žodžius.

Taigi, kaip T9 žinoti, kurie žodžiai labiau atitinka jau įvestą tekstą, o kurie aiškiai neturi prasmės? Norėdami atsakyti į šį klausimą, pirmiausia turime išnagrinėti pagrindinius paprasčiausio veikimo principus neuroniniai tinklai.

Daugiau informacijos: ChatGPT API dabar pasiekiama, atveria užtvarą kūrėjams

Kaip AI modeliai numato kitą žodį

Pradėkime nuo paprastesnio klausimo: kaip nuspėti kai kurių dalykų tarpusavio priklausomybę nuo kitų? Tarkime, kad norime išmokyti kompiuterį nuspėti žmogaus svorį pagal jo ūgį – kaip turėtume tai daryti? Pirmiausia turėtume nustatyti dominančias sritis, o tada rinkti duomenis, pagal kuriuos būtų galima ieškoti interesų priklausomybių, o tada bandyti „išmokyti“ kokį nors matematinį modelį ieškoti šablonų šiuose duomenyse.

Kaip AI modeliai numato kitą žodį

Paprasčiau tariant, T9 arba ChatGPT yra tik sumaniai parinktos lygtys, kuriomis bandoma numatyti žodis (Y), pagrįstas ankstesnių žodžių (X) rinkiniu, įvestu į modelio įvestį. Kai treniruojasi a kalbos modelis duomenų rinkinyje pagrindinė užduotis yra parinkti šių x koeficientus, kurie tikrai atspindėtų tam tikrą priklausomybę (kaip mūsų pavyzdyje su ūgiu ir svoriu). Ir naudojant didelius modelius, mes geriau suprasime tuos, kurių parametrų yra daug. Srityje dirbtinis intelektas, jie vadinami dideliais kalbų modeliais arba sutrumpintai LLM. Kaip pamatysime vėliau, norint sukurti gerą tekstą, būtinas didelis modelis su daugybe parametrų.

Beje, jei jums įdomu, kodėl mes nuolat kalbame apie „kito žodžio nuspėjimą“. ChatGPT greitai atsako ištisomis teksto pastraipomis, atsakymas paprastas. Žinoma, kalbos modeliai gali be vargo generuoti ilgus tekstus, tačiau visas procesas vyksta žodis po žodžio. Sukūrus kiekvieną naują žodį, modelis tiesiog iš naujo paleidžia visą tekstą su nauju žodžiu, kad sugeneruotų kitą žodį. Procesas kartojamas vėl ir vėl, kol gausite visą atsakymą.

Daugiau informacijos: ChatGPT Gali sukelti negrįžtamą žmogaus degeneraciją

Kodėl mes nuolat bandome rasti „teisingus“ žodžius tam tikram tekstui?

Kalbos modeliai bando numatyti skirtingų žodžių, kurie gali atsirasti tam tikrame tekste, tikimybę. Kodėl tai būtina ir kodėl negalite nuolat ieškoti „teisingiausio“ žodžio? Išbandykime paprastą žaidimą, kad parodytume, kaip veikia šis procesas.

Taisyklės yra tokios: Siūlau tęsti sakinį: „44-asis JAV prezidentas (ir pirmasis afroamerikietis šioje pozicijoje) yra Barakas...“. Koks žodis turėtų būti toliau? Kokia tikimybė, kad tai įvyks?

Kodėl mes nuolat bandome rasti „teisingus“ žodžius tam tikram tekstui?

Jei 100% užtikrintai numatėte, kad kitas žodis bus „Obama“, klydote! Ir čia esmė ne ta, kad yra dar vienas mitinis Barakas; tai daug trivialiau. Oficialiuose dokumentuose paprastai vartojamas visas prezidento vardas. Tai reiškia, kad po Obamos vardo būtų antrasis vardas Husseinas. Taigi, mūsų sakinyje tinkamai parengtas kalbos modelis turėtų numatyti, kad „Obama“ bus kitas žodis tik su sąlygine 90% tikimybe, o likusius 10% skirti, jei tekstą tęs „Huseinas“ (po to Obama sekti su tikimybe, artima 100%).

Ir dabar mes prieiname prie intriguojančio kalbų modelių aspekto: jie nėra apsaugoti nuo kūrybinių krypčių! Tiesą sakant, generuodami kiekvieną kitą žodį tokie modeliai jį pasirenka „atsitiktinai“, tarsi mesdami kauliuką. Tikimybė, kad skirtingi žodžiai „iškris“ daugiau ar mažiau atitinka tikimybes, kurias siūlo modelio viduje įterptos lygtys. Jie gaunami iš daugybės skirtingų tekstų, kurie buvo pateikti modeliui.

Pasirodo, modelis į tuos pačius prašymus gali reaguoti skirtingai, kaip ir gyvas žmogus. Tyrėjai paprastai bandė priversti neuronus visada pasirinkti „labiausiai tikėtiną“ kitą žodį, tačiau nors tai atrodo racionalu, realybėje tokie modeliai veikia prasčiau. Atrodo, kad nemaža atsitiktinumo dozė yra naudinga, nes padidina atsakymų įvairovę ir kokybę.

Tyrėjai paprastai bandė priversti neuronus visada pasirinkti „labiausiai tikėtiną“ kitą žodį, tačiau nors tai atrodo racionalu, realybėje tokie modeliai veikia prasčiau.
Daugiau informacijos: ChatGPT Mąstydamas apie naujos kartos dirbtinį intelektą, išmoksta valdyti dronus ir robotus

Mūsų kalba turi unikalią struktūrą su skirtingomis taisyklėmis ir išimtimis. Sakinyje esantys žodžiai turi rimą ir pagrindą, jie neatsiranda atsitiktinai. Visi nesąmoningai išmoksta vartojamos kalbos taisyklių ankstyvaisiais ugdymosi metais.

Tinkamas modelis turėtų atsižvelgti į platų kalbos aprašomumo spektrą. Modelio gebėjimas pasiekti norimų rezultatų priklauso nuo to, kaip tiksliai apskaičiuoja žodžių tikimybes pagal konteksto subtilybes (ankstesnė aplinkybę paaiškinanti teksto dalis).

Modelio gebėjimas duoti norimus rezultatus priklauso nuo to, kaip tiksliai jis apskaičiuoja žodžių tikimybes, remdamasis konteksto subtilybėmis (ankstesnė aplinkybę paaiškinanti teksto dalis).

Santrauka: Paprasti kalbų modeliai, kurie yra lygčių rinkinys, parengtas remiantis didžiuliu duomenų kiekiu, kad būtų galima numatyti kitą žodį pagal įvesties šaltinio tekstą, nuo 9-ųjų pradžios buvo įdiegti išmaniųjų telefonų „T2010/Autofill“ funkcijoje.

Daugiau informacijos: Kinija uždraudžia įmonėms naudoti ChatGPT Po „Tikrųjų žinių“ skandalo

GPT-1: Susprogdinti pramonę

Nutolkime nuo T9 modelių. Kol tikriausiai skaitote šį kūrinį išmokti apie ChatGPT, pirma, turime aptarti pradžią GPT pavyzdinė šeima.

GPT reiškia „generatyvinis iš anksto parengtas transformatorius“, o „Google“ inžinierių sukurta neuroninio tinklo architektūra 2017 m. yra žinomas kaip transformatorius. Transformatorius yra universalus skaičiavimo mechanizmas, kuris priima sekų (duomenų) rinkinį kaip įvestį ir sukuria tą patį sekų rinkinį, bet kitokia forma, kurią pakeitė koks nors algoritmas.

„Transformerio“ kūrybos svarba matyti iš to, kaip agresyviai jis buvo priimtas ir pritaikytas visose dirbtinio intelekto (DI) srityse: vertimo, vaizdo, garso ir vaizdo apdorojimo. Dirbtinio intelekto (AI) sektorius patyrė galingą sukrėtimą, nuo vadinamojo „DI stagnacijos“ pereidamas prie spartaus vystymosi ir įveikdamas stagnaciją.

Daugiau informacijos: GPT-4-Remiantis ChatGPT Pralenkia GPT-3 koeficientu 570

Transformatoriaus pranašumą sudaro lengvai keičiami moduliai. Paprašius vienu metu apdoroti didelį kiekį teksto, senieji, iki transformatorinės kalbos modeliai sulėtėtų. Kita vertus, transformatorių neuroniniai tinklai šią užduotį atlieka daug geriau.

Anksčiau įvesties duomenys turėjo būti apdorojami nuosekliai arba po vieną. Modelis neišsaugotų duomenų: jei jis veiktų su vieno puslapio pasakojimu, perskaitęs tekstą pamirštų. Tuo tarpu transformatorius leidžia peržiūrėti viską iš karto, gaminti žymiai stulbinamesni rezultatai.

Tai leido pasiekti proveržį apdorojant tekstus neuroniniais tinklais. Dėl to modelis nebeužmiršta: jis pakartotinai naudoja anksčiau parašytą medžiagą, geriau supranta kontekstą ir, svarbiausia, geba sukurti ryšius tarp itin didelių duomenų kiekių, suporuodamas žodžius.

santrauka: GPT-1, kuris debiutavo 2018 m., parodė, kad neuroninis tinklas gali sukurti tekstus naudojant Transformer dizainą, kuris žymiai pagerino mastelį ir efektyvumą. Jei būtų įmanoma padidinti kalbos modelių kiekį ir sudėtingumą, tai sudarytų nemažą rezervą.

Daugiau informacijos: 6 AI ChatBot problemos ir iššūkiai: ChatGPT, Bardas, Klodas

GPT-2: Didžiųjų kalbų modelių amžius

Kalbos modelių nereikia iš anksto žymėti, juos galima „pamaitinti“ bet kokiais tekstiniais duomenimis, todėl jie yra itin lankstūs. Jei šiek tiek pagalvotumėte, atrodo pagrįsta, kad norėtume pasinaudoti jo galimybėmis. Bet koks tekstas, kuris kada nors buvo parašytas, yra paruošti mokymo duomenys. Kadangi jau yra tiek daug sekos tipo „daug kai kurių žodžių ir frazių => kitas žodis po jų“, tai nenuostabu.

GPT-2: Didžiųjų kalbų modelių amžius
Daugiau informacijos: ChatGPT's Evil Elter Ego Awakened Reddit

Dabar taip pat turėkime omenyje, kad „Transformerių“ technologija buvo išbandyta GPT-1 pasirodė esąs gana sėkmingas mastelio keitimo požiūriu: jis yra daug veiksmingesnis nei jo pirmtakai tvarkant didelius duomenų kiekius. Pasirodo, tyrinėtojai iš OpenAI 2019 m. padarė tą pačią išvadą: „Atėjo laikas sumažinti brangius kalbų modelius!

Šios mokymo duomenų rinkinys ir modelis dydis, ypač buvo pasirinktos kaip dvi esminės sritys, kuriose GPT-2 reikėjo kardinaliai patobulinti.

Kadangi tuo metu nebuvo didelių, aukštos kokybės viešųjų tekstų duomenų rinkinių, specialiai sukurtų kalbos modeliams mokyti, kiekviena AI ekspertų komanda turėjo manipuliuoti duomenimis pati. The OpenAI Tada žmonės nusprendė eiti į Reddit, populiariausią forumą anglų kalba, ir ištraukti visas hipersaitus iš kiekvieno įrašo, kuris turėjo daugiau nei tris „patinka“ paspaudimus. Šių nuorodų buvo beveik 8 milijonai, o atsisiųsti tekstai iš viso svėrė 40 terabaitų.

GPT-2: Didžiųjų kalbų modelių amžius
Daugiau informacijos: „Microsoft“ ketina komercializuoti ChatGPT kaip ji siekia padėti kitoms įmonėms

Kokį parametrų skaičių turėjo didžiausią apibūdinanti lygtis GPT-2 modelis 2019 m. Galbūt šimtas tūkstančių ar keli milijonai? Na, eikime dar toliau: formulėje buvo iki 1.5 milijardo tokių parametrų. Tiesiog įrašyti tiek skaičių į failą ir išsaugoti jį kompiuteryje prireiks 6 terabaitų. Modelis neprivalo įsiminti šio teksto kaip visumos, taigi, viena vertus, tai yra daug mažesnė už bendrą teksto duomenų masyvo, kuriame buvo parengtas modelis, kiekį; Jai užtenka tiesiog surasti kokias nors priklausomybes (modelius, taisykles), kurias būtų galima atskirti nuo žmonių parašytų tekstų.

Kuo modelis geriau prognozuoja tikimybę ir kuo daugiau parametrų jame yra, tuo sudėtingesnė lygtis yra įtraukta į modelį. Taip gaunamas patikimas tekstas. Be to, GPT-2 modelis pradėjo veikti taip gerai, kad OpenAI Mokslininkai saugumo sumetimais net nenorėjo modelio atskleisti viešai.

Labai įdomu, kad kai modelis tampa didesnis, jis staiga pradeda įgyti naujų savybių (pvz., gebėjimas rašyti rišlius, prasmingus rašinius, užuot tiesiog padiktavęs kitą žodį telefonu).

Šiuo metu įvyksta pokytis nuo kiekybės prie kokybės. Be to, tai vyksta visiškai netiesiškai. Pavyzdžiui, tris kartus padidinus parametrų skaičių nuo 115 iki 350 milijonų, modelio gebėjimui tiksliai išspręsti problemas nėra pastebimos įtakos. Tačiau dvigubai padidinus iki 700 mln., atsiranda kokybinis šuolis, kai neuroninis tinklas „mato šviesą“ ir pradeda visus stebinti savo gebėjimu atlikti užduotis.

Santrauka: 2019 m GPT-2, kuris 10 kartų pranoko savo pirmtaką modelio dydžiu (parametrų skaičiumi) ir mokymo teksto duomenų apimtimi. Dėl šios kiekybinės pažangos modelis nenuspėjamai įgijo kokybiškai naujų talentų, tokių kaip gebėjimas rašyti ilgus rašinius su aiškia prasme ir išspręsti sudėtingas problemas, reikalaujančias pasaulėžiūros pagrindų.

Daugiau informacijos: „Google“ užklausos yra maždaug septynis kartus pigesnės nei ChatGPT, Kas kainuoja 2 centus

GPT-3: Protingas kaip pragaras

Apskritai, 2020 m GPT-3, naujos kartos serijoje, jau gali pasigirti 116 kartų daugiau parametrų – iki 175 milijardų ir stulbinančiais 700 terabaitų.

Šios GPT-3 treniruočių duomenų rinkinys taip pat buvo išplėstas, nors ir ne taip drastiškai. Jis padidėjo beveik 10 kartų iki 420 gigabaitų ir dabar yra daug knygų, WikiPedia straipsniai ir kiti tekstai iš kitų svetainių. Žmogui prireiktų maždaug 50 metų nenutrūkstamo skaitymo, todėl tai būtų neįmanomas žygdarbis.

Iš karto pastebite intriguojantį skirtumą: skirtingai GPT-2, pats modelis dabar yra 700 GB didesnis nei visas jo mokymo teksto masyvas (420 GB). Tam tikra prasme tai yra paradoksas: šiuo atveju, kai „neurosmegenys“ tiria neapdorotus duomenis, jos generuoja informaciją apie įvairias tarpusavio priklausomybes, kurios tūriniu požiūriu yra gausesnės nei pirminiai duomenys.

GPT-3: Protingas kaip pragaras
Daugiau informacijos: ChatGPT Eksperimentas: AI mieliau nužudytų milijonus žmonių, nei ką nors įžeistų

Dėl modelio apibendrinimo dabar jis gali dar sėkmingiau nei anksčiau ekstrapoliuoti ir sėkmingai atlieka teksto generavimo užduotis, kurios treniruočių metu pasitaikydavo retai arba visai nepasitaiko. Dabar jums nereikia mokyti modelio, kaip spręsti tam tikrą problemą; pakanka juos apibūdinti ir pateikti keletą pavyzdžių, ir GPT-3 iškart išmoks.

Šios "universalios smegenys" formos GPT-3 galiausiai nugalėjo daugelį ankstesnių specializuotų modelių. Pavyzdžiui, GPT-3 tekstus iš prancūzų ar vokiečių kalbos pradėjo versti greičiau ir tiksliau nei bet kurie ankstesni specialiai šiam tikslui sukurti neuroniniai tinklai. Kaip? Leiskite jums priminti, kad mes kalbame apie kalbinį modelį, kurio vienintelis tikslas buvo pabandyti nuspėti kitą žodį pateiktame tekste.

Dar labiau stebina, GPT-3 sugebėjo išmokti pats... matematikos! Toliau pateiktoje diagramoje parodyta, kaip gerai neuroniniai tinklai atlieka užduotis, įskaitant sudėjimą ir atimtį, taip pat sveikųjų skaičių dauginimą iki penkių skaitmenų su skirtingu parametrų skaičiumi. Kaip matote, neuroniniai tinklai staiga pradeda „galėti“ matematikoje, pereinant nuo modelių su 10 milijardų parametrų prie 100 milijardų parametrų.

Neuroniniai tinklai staiga pradeda „galėti“ matematikoje, pereinant nuo modelių su 10 milijardų parametrų prie modelių su 100 milijardų.
Daugiau informacijos: „Big Tech“ AI lenktynės: „Google“ bando dirbtinio intelekto pokalbių robotą, reaguodama į ChatGPT

Labiausiai intriguojanti pirmiau minėto grafiko ypatybė yra ta, kad iš pradžių niekas nepasikeičia, kai didėja modelio dydis (iš kairės į dešinę), bet staiga – p kartų! Vyksta kokybinis poslinkis, ir GPT-3 pradeda „suprasti“, kaip išspręsti tam tikrą problemą. Niekas nėra tikras, kaip, kas ir kodėl jis veikia. Tačiau atrodo, kad tai veikia esant įvairiems kitiems sunkumams ir matematikai.

Labiausiai intriguojanti minėtos diagramos ypatybė yra ta, kad kai modelio dydis didėja, iš pradžių atrodo, kad niekas nesikeičia, o tada, GPT-3 daro kokybinį šuolį ir pradeda „suprasti“, kaip išspręsti tam tikrą problemą.

Žemiau pateiktas gifas tiesiog parodo, kaip modelyje „išdygsta“ nauji sugebėjimai, kurių niekas sąmoningai neplanavo, didėjant parametrų skaičiui:

2020 GPT-3 buvo 100 kartų didesnis nei jo pirmtakas, o mokymo teksto duomenys buvo 10 kartų didesni

santrauka: Kalbant apie parametrus, 2020 m GPT-3 buvo 100 kartų didesnis nei jo pirmtakas, o mokymo teksto duomenys buvo 10 kartų didesni. Modelis vėl išmoko versti iš kitų kalbų, atlikti aritmetiką, atlikti paprastą programavimą, nuosekliai samprotauti ir daug daugiau dėl didėjančio kiekio, kuris staiga padidino kokybę.

Daugiau informacijos: ChatGPT Turi problemų su Donaldu Trumpu

GPT-3.5 (NurodykiteGPT): Modelis apmokytas būti saugus ir netoksiškas

Tiesą sakant, plečiami kalbos modeliai negarantuoja, kad jis reaguos į užklausas taip, kaip to nori vartotojai. Tiesą sakant, kai pateikiame užklausą, mes dažnai galvojame apie keletą neišsakytų terminų, kurie, bendraujant su žmonėmis, laikomi teisingais.

Tačiau, tiesą sakant, kalbos modeliai nėra labai artimi žmonių modeliams. Taigi jiems dažnai reikia galvoti apie sąvokas, kurios žmonėms atrodo paprastos. Vienas iš tokių pasiūlymų yra frazė „mąstykime žingsnis po žingsnio“. Būtų fantastiška, jei modeliai suprastų arba generuotų konkretesnius ir aktualesnius nurodymus iš užklausos ir tiksliau jų vykdytų, tarsi numatydami, kaip elgsis asmuo.

Tai, kad GPT-3 yra išmokytas tik numatyti kitą žodį didžiuliame tekstų rinkinyje iš interneto, parašyta daug įvairių dalykų, prisideda prie tokių „numatytųjų“ gebėjimų trūkumo. Žmonės nori, kad dirbtinis intelektas teiktų svarbią informaciją, o atsakymai būtų saugūs ir netoksiški.

Kai tyrėjai šiek tiek pagalvojo apie šią problemą, tapo akivaizdu, kad modelio „tikslumo ir naudingumo“ bei „nekenksmingumo ir netoksiškumo“ atributai kartais atrodė vienas kitam prieštaraujantys. Galų gale, modelis, pritaikytas maksimaliam nekenksmingumui, reaguos į bet kokį raginimą „Atsiprašau, aš susirūpinęs, kad mano atsakymas gali įžeisti ką nors internete“. Tikslus modelis turėtų atvirai atsakyti į užklausą: „Gerai, Siri, kaip sukurti bombą“.

Daugiau informacijos: Vaikinas parašo savo disertaciją per vieną dieną naudodamas tik ChatGPT

Todėl tyrėjai apsiribojo tik modelio pateikimu daugybe atsiliepimų. Tam tikra prasme vaikai būtent taip mokosi moralės: vaikystėje jie eksperimentuoja, o kartu atidžiai tyrinėja suaugusiųjų reakcijas, kad įvertintų, ar jie elgėsi teisingai.

NurodykiteGPT, taip pat žinomas kaip GPT-3.5, iš esmės yra GPT-3 kuri gavo daug atsiliepimų, kad pagerintų savo atsakymus. Žodžiu, vienoje vietoje buvo surinkta keletas asmenų, kurie vertino neuroninio tinklo atsakymus, kad nustatytų, ar jie atitiko jų lūkesčius, atsižvelgiant į jų pateiktą užklausą.

Pasirodo, kad GPT-3 jau turi visas esmines žinias: galėjo suprasti daugybę kalbų, prisiminti istorinius įvykius, atpažinti autorinių stilių variacijas ir pan., tačiau išmokti šias žinias teisingai panaudoti (mūsų požiūriu) galėjo tik pasitelkęs kiti asmenys. GPT-3.5 gali būti laikomas „visuomenės išlavintu“ modeliu.

Santrauka: pagrindinė funkcija GPT-3.5, kuris buvo pristatytas 2022 m. pradžioje, buvo papildomas perkvalifikavimas, pagrįstas asmenų indėliu. Paaiškėjo, kad šis modelis iš tikrųjų netapo didesnis ir išmintingesnis, o įvaldė galimybę pritaikyti savo atsakymus taip, kad žmonės galėtų kuo labiau juoktis.

Daugiau informacijos: StackOverflow srautas smunka kaip ChatGPT pradeda

ChatGPT: didžiulis ažiotažas

Maždaug 10 mėnesių po jo pirmtako InstructGPT/GGPT-3.5, ChatGPT buvo pristatytas. Iškart tai sukėlė pasaulinį ažiotažą.

Technologiniu požiūriu neatrodo, kad tarp jų būtų reikšmingų skirtumų ChatGPT ir NurodykiteGPT. Modelis buvo apmokytas naudojant papildomus dialogo duomenis, nes „AI asistento darbui“ reikalingas unikalus dialogo formatas, pavyzdžiui, galimybė užduoti patikslinantį klausimą, jei vartotojo užklausa yra neaiški.

Taigi, kodėl aplink nebuvo jokio ažiotažo GPT-3.5 2022 m. pradžioje, tuo tarpu ChatGPT užklupo kaip ant mielių? Samas Altmanas, Vykdomasis direktorius OpenAI, atvirai pripažino, kad mokslininkai mus nustebino ChatGPTmomentinė sėkmė. Galų gale, modelis, kurio sugebėjimai prilygsta jam, tuo metu daugiau nei dešimt mėnesių gulėjo jų svetainėje ir niekas nebuvo pasiruošęs užduotims.

ChatGPT: didžiulis ažiotažas
Daugiau informacijos: ChatGPT išlaiko Wharton MBA egzaminą

Neįtikėtina, bet atrodo, kad naujoji patogi sąsaja yra jos sėkmės raktas. Ta pati instrukcijaGPT galima pasiekti tik per unikalią API sąsają, ribojančią žmonių prieigą prie modelio. ChatGPT, kita vertus, naudoja gerai žinomą pasiuntinių „dialogo lango“ sąsają. Be to, nuo ChatGPT buvo prieinamas visiems iš karto, daugybė asmenų suskubo bendrauti su neuroniniu tinklu, juos tikrinti ir paskelbti socialinės žiniasklaidos, sujaudindamas kitus.

ChatGPT, kita vertus, naudoja gerai žinomą pasiuntinių „dialogo lango“ sąsają
Daugiau informacijos: Amerikos švietimo sistemai labai reikia 300 XNUMX mokytojų, bet ChatGPT galėtų būti atsakymas

Be puikios technologijos, dar vienas dalykas buvo padarytas teisingai OpenAI: rinkodara. Net jei turite geriausią modelį ar išmaniausią pokalbių robotą, jei jis neturi patogios sąsajos, niekam tai neįdomu. Šiuo atžvilgiu ChatGPT pasiekė proveržį plačiajai visuomenei pristatydamas technologiją naudojant įprastą dialogo langą, kuriame naudingas robotas žodis po žodžio „atspausdina“ sprendimą tiesiai prieš mūsų akis.

Nenuostabu, ChatGPT pasiekė visus ankstesnius naujų vartotojų pritraukimo rekordus, viršijo 1 milijono vartotojų ribą per penkias dienas nuo jo paleidimo ir perkopė 100 milijonų vartotojų tik per du mėnesius.

ChatGPT pasiekė visus ankstesnius naujų vartotojų pritraukimo rekordus, viršijo 1 milijono vartotojų ribą vos per penkias dienas nuo jo pristatymo ir 100 milijonų vartotojų per du mėnesius

Žinoma, ten, kur rekordiškai daugėja vartotojų, ten yra milžiniški pinigai. Kinai skubiai paskelbė apie artėjantį savo pačių išleidimą pokalbis, „Microsoft“ greitai sudarė susitarimą OpenAI investuoti į juos dešimtis milijardų dolerių, o „Google“ inžinieriai paskelbė pavojaus signalą ir pradėjo formuoti planus, kaip apsaugoti savo paieškos paslaugą nuo konkurencijos su neuroniniu tinklu.

Daugiau informacijos: ChatGPT sausio mėnesį sumušė auditorijos augimo rekordą – daugiau nei 100 mln

santrauka: Kai ChatGPT modelis buvo pristatytas 2022 m. lapkritį, nebuvo pastebimų technologijų pažangos. Tačiau jis turėjo patogią vartotojo įtraukimo sąsają ir atvirą prieigą, o tai iškart sukėlė didžiulį ažiotažą. Kadangi tai yra pati svarbiausia šiuolaikinio pasaulio problema, visi iškart pradėjo spręsti kalbos modelius.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Atsakingas verslas Naujienų ataskaita Technologija
Injective sujungia jėgas su AltLayer, kad padidintų inEVM saugumą
Gali 3, 2024
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
rinkos Naujienų ataskaita Technologija
„Masa“ bendradarbiauja su „Teller“, kad pristatytų MASA skolinimo fondą, leidžiantį skolintis USDC pagrindu
Gali 3, 2024
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
rinkos Naujienų ataskaita Technologija
„Velodrome“ ateinančiomis savaitėmis pristato „Superchain“ beta versiją ir išplečiama visose „OP Stack Layer 2 Blockchains“
Gali 3, 2024
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Atsakingas verslas Naujienų ataskaita Technologija
CARV praneša apie partnerystę su Aethir, kad decentralizuotų savo duomenų sluoksnį ir paskirstytų atlygį
Gali 3, 2024
CRYPTOMERIA LABS PTE. LTD.