Raport aktualności Technologia
09 marca 2023 r.

Ewolucja chatbotów z ery T9 i GPT-1 do ChatGPT

Ostatnio niemal codziennie jesteśmy bombardowani wiadomościami o najnowszych rekordach pobitych przez sieci neuronowe na dużą skalę i dlaczego właściwie nikt nie jest bezpieczny. Niemniej jednak bardzo niewiele osób zdaje sobie sprawę z tego, jak lubią sieci neuronowe ChatGPT faktycznie działają.

Więc zrelaksuj się. Nie rozpaczaj jeszcze nad perspektywami zatrudnienia. W tym poście wyjaśnimy wszystko, co trzeba wiedzieć o sieciach neuronowych w sposób zrozumiały dla każdego.

Ewolucja chatbotów z ery T9 i GPT-1 do ChatGPT i Barta

Zastrzeżenie, zanim zaczniemy: ten utwór jest efektem współpracy. Cała część techniczna została napisana przez specjalistę AI, który jest dobrze znany w tłumie AI.

Ponieważ nikt jeszcze nie napisał dogłębnego artykułu o tym, jak ChatGPT prac, które w przystępny sposób wyjaśniałyby tajniki sieci neuronowych, postanowiliśmy zrobić to za Ciebie. Staraliśmy się, aby ten post był jak najprostszy, aby czytelnicy mogli wyjść z jego lektury z ogólnym zrozumieniem zasad językowych sieci neuronowych. Zbadamy, jak modele językowe tam pracują, jak ewoluowały sieci neuronowe, aby posiadać obecne możliwości i dlaczego ChatGPTWybuchowa popularność zaskoczyła nawet jej twórców.

Zacznijmy od podstaw. Rozumieć ChatGPT z technicznego punktu widzenia musimy najpierw zrozumieć, czym to nie jest. To nie jest Jarvis z Marvel Comics; nie jest istotą rozumną; to nie jest dżin. Przygotuj się na szok: ChatGPT jest właściwie T9 twojego telefonu komórkowego na sterydach! Tak, to prawda: Naukowcy odnoszą się do obu tych technologii jako „modele językowe”. Wszystkie sieci neuronowe zgadują, jakie słowo powinno być następne.

Oryginalna technologia T9 tylko przyspieszała wybieranie numeru za pomocą przycisku, odgadując bieżące wprowadzanie, a nie następne słowo. Jednak technologia się rozwinęła i do ery smartfonów na początku 2010 roku była w stanie wziąć pod uwagę kontekst i słowo poprzedzające, dodać interpunkcję i zaoferować wybór słów, które mogą być następne. To jest dokładnie analogia, którą robimy z taką „zaawansowaną” wersją T9 lub autokorekty.

W rezultacie zarówno T9 na klawiaturze smartfona, jak i ChatGPT zostali przeszkoleni w rozwiązywaniu śmiesznie prostego zadania: przewidywanie następnego słowa. Jest to znane jako „modelowanie języka” i ma miejsce, gdy na podstawie istniejącego tekstu podejmowana jest decyzja o tym, co powinno zostać napisane dalej. Modele językowe muszą działać na prawdopodobieństwach wystąpienia określonych słów, aby dokonać takich prognoz. W końcu byłbyś zirytowany, gdyby autouzupełnianie Twojego telefonu po prostu rzuciło ci zupełnie losowe słowa z takim samym prawdopodobieństwem.

Dla jasności wyobraźmy sobie, że otrzymujesz wiadomość od znajomego. Mówi: „Jakie masz plany na wieczór?” W odpowiedzi zaczynasz pisać: „Idę do…” i tu wkracza T9. Może wymyślić zupełnie bezsensowne rzeczy, takie jak „Idę na księżyc”, nie jest wymagany żaden skomplikowany model językowy. Dobre modele autouzupełniania smartfonów sugerują znacznie trafniejsze słowa.

Skąd więc T9 wie, które słowa są bardziej prawdopodobne po już wpisanym tekście, a które wyraźnie nie mają sensu? Aby odpowiedzieć na to pytanie, musimy najpierw zbadać podstawowe zasady działania najprostszego sieci neuronowe.

Jeszcze: ChatGPT Interfejs API jest już dostępny, otwiera bramę powodziową dla programistów

Jak modele AI przewidują następne słowo

Zacznijmy od prostszego pytania: Jak przewidujesz współzależność jednych rzeczy od innych? Załóżmy, że chcemy nauczyć komputer przewidywania wagi osoby na podstawie jej wzrostu — jak powinniśmy się do tego zabrać? Powinniśmy najpierw zidentyfikować obszary zainteresowań, a następnie zebrać dane, na podstawie których można by szukać interesujących nas zależności, a następnie podjąć próbę „wytrenować” jakiś model matematyczny szukać wzorców w tych danych.

Jak modele AI przewidują następne słowo

Mówiąc prościej, T9 lub ChatGPT to tylko sprytnie dobrane równania, które próbują przewidzieć słowo (Y) oparte na zbiorze poprzednich słów (X) wprowadzonych do wejścia modelu. Podczas treningu A model języka na zbiorze danych głównym zadaniem jest wybranie współczynników dla tych x, które naprawdę odzwierciedlają pewnego rodzaju zależność (jak w naszym przykładzie ze wzrostem i wagą). A dzięki dużym modelom lepiej zrozumiemy te z dużą liczbą parametrów. W dziedzinie sztuczna inteligencja, są one określane jako duże modele językowe lub w skrócie LLM. Jak zobaczymy później, duży model z wieloma parametrami jest niezbędny do wygenerowania dobrego tekstu.

Nawiasem mówiąc, jeśli zastanawiasz się, dlaczego ciągle mówimy o „przewidywaniu jednego następnego słowa”, podczas gdy ChatGPT szybko odpowiada całymi akapitami tekstu, odpowiedź jest prosta. Jasne, modele językowe mogą bez problemu generować długie teksty, ale cały proces odbywa się słowo po słowie. Po wygenerowaniu każdego nowego słowa model po prostu ponownie uruchamia cały tekst z nowym słowem, aby wygenerować następne słowo. Proces powtarza się w kółko, aż otrzymasz całą odpowiedź.

Jeszcze: ChatGPT Może spowodować nieodwracalną degenerację człowieka

Dlaczego ciągle próbujemy znaleźć „właściwe” słowa do danego tekstu?

Modele językowe próbują przewidzieć prawdopodobieństwo wystąpienia różnych słów w danym tekście. Dlaczego jest to konieczne i dlaczego nie możesz po prostu szukać „najbardziej poprawnego” słowa? Wypróbujmy prostą grę, aby zilustrować, jak działa ten proces.

Zasady są następujące: Proponuję dokończyć zdanie: „44. prezydentem Stanów Zjednoczonych (i pierwszym Afroamerykaninem na tym stanowisku) jest Barak…”. Jakie słowo powinno pójść dalej? Jakie jest prawdopodobieństwo, że to nastąpi?

Dlaczego ciągle próbujemy znaleźć „właściwe” słowa do danego tekstu?

Jeśli przewidziałeś ze 100% pewnością, że następnym słowem będzie „Obama”, byłeś w błędzie! I nie chodzi tu o to, że jest jeszcze jeden mityczny Barak; jest o wiele bardziej trywialny. Oficjalne dokumenty zwykle używają pełnego imienia i nazwiska prezydenta. Oznacza to, że to, co następuje po imieniu Obamy, byłoby jego drugim imieniem, Hussein. Tak więc w naszym zdaniu odpowiednio wyszkolony model językowy powinien przewidzieć, że „Obama” będzie kolejnym słowem tylko z warunkowym prawdopodobieństwem 90%, a pozostałe 10% przeznaczyć, jeśli tekst będzie kontynuowany przez „Hussein” (po czym Obama następuje z prawdopodobieństwem bliskim 100%).

A teraz dochodzimy do intrygującego aspektu modeli językowych: nie są one odporne na twórcze tendencje! Tak naprawdę podczas generowania każdego kolejnego słowa takie modele wybierają je w sposób „losowy”, jak przy rzucaniu kostką. Prawdopodobieństwo „wypadnięcia” różnych słów odpowiada mniej więcej prawdopodobieństwom sugerowanym przez równania wstawione do modelu. Pochodzą one z ogromnej gamy różnych tekstów, którymi karmiono model.

Okazuje się, że modelka może inaczej reagować na te same prośby, tak jak żywa osoba. Badacze na ogół próbowali zmusić neurony, aby zawsze wybierały „najbardziej prawdopodobne” następne słowo, ale chociaż wydaje się to racjonalne z pozoru, takie modele działają gorzej w rzeczywistości. Wydaje się, że spora dawka przypadkowości jest korzystna, ponieważ zwiększa zmienność i jakość odpowiedzi.

Badacze na ogół próbowali zmusić neurony, aby zawsze wybierały „najbardziej prawdopodobne” następne słowo, ale chociaż na pozór wydaje się to racjonalne, takie modele działają gorzej w rzeczywistości.
Jeszcze: ChatGPT Uczy się kontrolować drony i roboty, zastanawiając się nad sztuczną inteligencją nowej generacji

Nasz język ma unikalną strukturę z odrębnymi zestawami reguł i wyjątków. To, jakie słowa pojawiają się w zdaniu, ma rym i powód, nie pojawiają się one przypadkowo. Każdy nieświadomie uczy się zasad języka, którym się posługuje podczas wczesnych lat formacyjnych.

Przyzwoity model powinien uwzględniać szeroki zakres opisowości języka. Modele zdolność do uzyskania pożądanych rezultatów zależy od tego, jak dokładnie oblicza prawdopodobieństwa słów w oparciu o subtelności kontekstu (poprzednia część tekstu wyjaśniająca okoliczność).

Zdolność modelu do generowania pożądanych wyników zależy od tego, jak dokładnie oblicza on prawdopodobieństwa słów w oparciu o subtelności kontekstu (poprzednia część tekstu wyjaśniająca okoliczności).

Podsumowanie: Proste modele językowe, które są zbiorem równań wyszkolonych na ogromnej ilości danych w celu przewidywania następnego słowa na podstawie wejściowego tekstu źródłowego, są wdrażane w funkcji „T9/Autouzupełnianie” smartfonów od początku 2010 roku.

Jeszcze: Chiny zakazują firmom używania ChatGPT Po aferze „True News”.

GPT-1: Wysadzanie przemysłu

Odejdźmy od modeli T9. Podczas gdy prawdopodobnie czytasz ten artykuł uczyć się o ChatGPTNajpierw musimy omówić początki GPT modelowa rodzina.

GPT oznacza „generacyjny, wstępnie przeszkolony transformator”, podczas gdy architektura sieci neuronowej opracowana przez inżynierów Google w 2017 roku jest znany jako Transformer. Transformator to uniwersalny mechanizm obliczeniowy, który przyjmuje zestaw sekwencji (danych) jako dane wejściowe i wytwarza ten sam zestaw sekwencji, ale w innej formie, która została zmieniona przez jakiś algorytm.

Znaczenie stworzenia Transformera można dostrzec w tym, jak agresywnie zostało ono przyjęte i zastosowane we wszystkich dziedzinach sztucznej inteligencji (AI): tłumaczeniu, przetwarzaniu obrazu, dźwięku i wideo. Sektor sztucznej inteligencji (AI) przeszedł potężny wstrząs, przechodząc z tzw. „stagnacji AI” do szybkiego rozwoju i przezwyciężenia stagnacji.

Jeszcze: GPT-4-Na podstawie ChatGPT Przewyższa GPT-3 przez współczynnik 570

Kluczową siłą Transformera są łatwe do skalowania moduły. Kiedy poproszono o jednoczesne przetworzenie dużej ilości tekstu, stare modele językowe sprzed transformacji zwalniały. Transformatorowe sieci neuronowe radzą sobie z tym zadaniem znacznie lepiej.

W przeszłości dane wejściowe musiały być przetwarzane sekwencyjnie lub pojedynczo. Model nie zachowywałby danych: gdyby działał z jednostronicową narracją, zapomniałby tekstu po jego przeczytaniu. Tymczasem Transformer pozwala zobaczyć wszystko na raz, produkcji znacznie bardziej oszałamiające wyniki.

To właśnie umożliwiło przełom w przetwarzaniu tekstów przez sieci neuronowe. W rezultacie model już nie zapomina: ponownie wykorzystuje wcześniej napisany materiał, lepiej rozumie kontekst i, co najważniejsze, jest w stanie tworzyć połączenia między bardzo dużymi ilościami danych, łącząc ze sobą słowa.

Podsumowanie: GPT-1, który zadebiutował w 2018 roku, pokazał, że sieć neuronowa może generować teksty przy użyciu konstrukcji Transformer, co znacznie poprawiło skalowalność i wydajność. Gdyby możliwe było zwiększenie ilości i złożoności modeli językowych, stworzyłoby to znaczną rezerwę.

Jeszcze: 6 problemów i wyzwań AI ChatBot: ChatGPT, Bard, Claude

GPT-2: Wiek dużych modeli językowych

Modele językowe nie muszą być wcześniej specjalnie oznaczane i mogą być „zasilane” dowolnymi danymi tekstowymi, co czyni je niezwykle elastycznymi. Jeśli się nad tym zastanowić, wydaje się rozsądne, abyśmy chcieli wykorzystać jego możliwości. Każdy tekst, który kiedykolwiek został napisany, służy jako gotowe dane treningowe. Ponieważ istnieje już tak wiele sekwencji typu „dużo niektórych słów i fraz => następne słowo po nich”, nie jest to zaskakujące.

GPT-2: Wiek dużych modeli językowych
Jeszcze: ChatGPTEvil Elter Ego Awakened na Reddit

Teraz pamiętajmy również, że technologia Transformers była testowana GPT-1 okazał się całkiem skuteczny pod względem skalowania: jest znacznie bardziej skuteczny niż jego poprzednicy w obsłudze dużych ilości danych. Okazuje się, że badacze z OpenAI doszedł do tego samego wniosku w 2019 roku: „Czas wyciąć drogie modele językowe!”

Połączenia zestaw danych treningowych i model w szczególności rozmiar zostały wybrane jako dwa kluczowe obszary, w których GPT-2 wymagało radykalnej poprawy.

Ponieważ w tamtym czasie nie było ogromnych publicznych zbiorów danych tekstowych wysokiej jakości zaprojektowanych specjalnie do uczenia modeli językowych, każdy zespół ekspertów AI musiał samodzielnie manipulować danymi. The OpenAI ludzie podjęli wtedy decyzję, aby przejść do Reddit, najpopularniejszego anglojęzycznego forum, i wyodrębnić wszystkie hiperłącza z każdego postu, który miał więcej niż trzy polubienia. Tych linków było prawie 8 milionów, a pobrane teksty ważyły ​​łącznie 40 terabajtów.

GPT-2: Wiek dużych modeli językowych
Jeszcze: Microsoft do komercjalizacji ChatGPT ponieważ stara się pomóc innym firmom

Jaka liczba parametrów była największa w równaniu opisującym GPT-2 model w 2019 roku? Może sto tysięcy, a może kilka milionów? No cóż, przejdźmy jeszcze dalej: formuła zawierała aż 1.5 miliarda takich parametrów. Zapisanie takiej liczby liczb w pliku i zapisanie go na komputerze zajmie 6 terabajtów. Model nie musi zapamiętywać tego tekstu w całości, więc z jednej strony jest to znacznie mniej niż całkowita ilość tablicy danych tekstowych, na której trenowany był model; wystarczy, że po prostu znajdzie pewne zależności (wzorce, reguły), które da się wyizolować z tekstów pisanych przez ludzi.

Im lepiej model prognozuje prawdopodobieństwo i im więcej parametrów zawiera, tym bardziej złożone równanie jest wbudowane w model. Dzięki temu tekst jest wiarygodny. Dodatkowo, GPT-2 model zaczął działać tak dobrze, że OpenAI Badacze ze względów bezpieczeństwa niechętnie ujawniali model publicznie.

To bardzo ciekawe, że gdy model się powiększy, nagle zaczyna nabierać nowych cech (takich jak umiejętność pisania spójnych, sensownych esejów zamiast zwykłego dyktowania kolejnego słowa przez telefon).

W tym momencie następuje przejście od ilości do jakości. Co więcej, dzieje się to całkowicie nieliniowo. Na przykład trzykrotny wzrost liczby parametrów ze 115 do 350 milionów nie ma zauważalnego wpływu na zdolność modelu do dokładnego rozwiązywania problemów. Jednak dwukrotny wzrost do 700 milionów powoduje skok jakościowy, w którym sieć neuronowa „widzi światło” i zaczyna zadziwiać wszystkich swoją zdolnością do wykonywania zadań.

Podsumowanie: W 2019 roku wprowadzono GPT-2, który 10-krotnie przewyższył swojego poprzednika pod względem wielkości modelu (liczby parametrów) i objętości uczących danych tekstowych. Dzięki temu postępowi ilościowemu model w nieprzewidywalny sposób nabył jakościowo nowe talenty, takie jak zdolność pisać długie eseje z jasnym znaczeniem i rozwiązywać trudne problemy, które wymagają podstaw światopoglądu.

Jeszcze: Żądania Google są około siedem razy tańsze niż ChatGPT, Który Kosztuje 2 Centy

GPT-3: Inteligentny jak cholera

Ogólnie rzecz biorąc, wydanie 2020 GPT-3, kolejna generacja z tej serii, może pochwalić się już 116 razy większymi parametrami – aż do 175 miliardów i zdumiewającymi 700 terabajtami.

Połączenia GPT-3 zestaw danych szkoleniowych również został rozszerzony, choć nie tak drastycznie. Zwiększyła się prawie 10-krotnie do 420 gigabajtów i obecnie zawiera dużą liczbę książek, Wikiartykuły z pedii i inne teksty z innych stron internetowych. Czytanie bez przerwy zajęłoby człowiekowi około 50 lat, co czyniłoby to wyczynem niemożliwym.

Od razu zauważasz intrygującą różnicę: inaczej GPT-2sam model jest teraz o 700 GB większy niż cała tablica tekstu do jego szkolenia (420 GB). Okazuje się to w pewnym sensie paradoksem: w tym przypadku „neuromózg” badając surowe dane, generuje informacje o różnych zachodzących w nich współzależnościach, które są obszerniejsze wolumetrycznie niż dane oryginalne.

GPT-3: Inteligentny jak cholera
Jeszcze: ChatGPT Eksperyment: AI wolałaby zabić miliony ludzi, niż kogoś obrazić

W wyniku uogólnienia modelu jest on teraz w stanie ekstrapolować jeszcze skuteczniej niż wcześniej i sprawdza się nawet w przypadku zadań związanych z generowaniem tekstu, które podczas szkolenia występowały rzadko lub wcale. Teraz nie musisz uczyć modelu, jak radzić sobie z określonym problemem; wystarczy je opisać i podać kilka przykładów, oraz GPT-3 natychmiast się dowiem.

Połączenia „uniwersalny mózg” w kształcie GPT-3 ostatecznie pokonał wiele wcześniejszych wyspecjalizowanych modeli. Na przykład, GPT-3 zaczął tłumaczyć teksty z języka francuskiego czy niemieckiego szybciej i dokładniej niż jakiekolwiek dotychczasowe sieci neuronowe stworzone specjalnie w tym celu. Jak? Przypomnę, że mówimy o modelu językowym, którego jedynym celem była próba przewidzenia kolejnego słowa w danym tekście.

Jeszcze bardziej zdumiewające, GPT-3 był w stanie uczyć się… matematyki! Poniższy wykres ilustruje skuteczność sieci neuronowych w zadaniach obejmujących dodawanie i odejmowanie oraz mnożenie liczb całkowitych do pięciu cyfr przy różnej liczbie parametrów. Jak widać, sieci neuronowe nagle zaczynają „umieć” matematykę, przechodząc od modeli o 10 miliardach parametrów do modeli o 100 miliardach.

sieci neuronowe nagle zaczynają „być w stanie” w matematyce, przechodząc z modeli o 10 miliardach parametrów do modeli o 100 miliardach
Jeszcze: Wyścig sztucznej inteligencji firmy Big Tech: Google testuje chatbota napędzanego sztuczną inteligencją w odpowiedzi na ChatGPT

Najbardziej intrygującą cechą powyższego wykresu jest to, że początkowo nic nie wydaje się zmieniać wraz ze wzrostem rozmiaru modelu (od lewej do prawej), ale nagle p razy! Następuje zmiana jakościowa i GPT-3 zaczyna „rozumieć”, jak rozwiązać dany problem. Nikt nie jest pewien, jak, co i dlaczego to działa. Wydaje się jednak, że sprawdza się w przypadku wielu innych trudności, a także w matematyce.

Najbardziej intrygującą cechą powyższego wykresu jest to, że wraz ze wzrostem rozmiaru modelu najpierw wydaje się, że nic się nie zmienia, a następnie: GPT-3 dokonuje skoku jakościowego i zaczyna „rozumieć”, jak rozwiązać dany problem.

Poniższy gif po prostu pokazuje, jak nowe zdolności, których nikt celowo nie zaplanował, „wyrastają” w modelu wraz ze wzrostem liczby parametrów:

2020 GPT-3 był 100 razy większy od swojego poprzednika, natomiast dane tekstowe szkoleniowe były 10 razy większe

Podsumowanie: Pod względem parametrów model 2020 GPT-3 był 100 razy większy od swojego poprzednika, natomiast dane tekstowe szkoleniowe były 10 razy większe. Po raz kolejny model nauczył się tłumaczyć z innych języków, wykonywać arytmetykę, wykonywać proste programowanie, rozumować sekwencyjnie i wiele więcej w wyniku ekspansji ilościowej, która gwałtownie poprawiła jakość.

Jeszcze: ChatGPT Ma problem z Donaldem Trumpem

GPT-3.5 (PouczaćGPT): Modelka przeszkolona pod kątem bezpieczeństwa i nietoksyczności

W rzeczywistości rozszerzanie modeli językowych nie gwarantuje, że będzie reagował na zapytania tak, jak chcą tego użytkownicy. W rzeczywistości, kiedy składamy prośbę, często mamy na myśli szereg niewypowiedzianych warunków, które w komunikacji międzyludzkiej zakłada się, że są prawdziwe.

Jednak, szczerze mówiąc, modele językowe nie są bardzo zbliżone do ludzkich. Dlatego często muszą myśleć o koncepcjach, które ludziom wydają się proste. Jedną z takich sugestii jest zdanie „pomyślmy krok po kroku”. Byłoby fantastycznie, gdyby modele zrozumiały lub wygenerowały bardziej szczegółowe i trafne instrukcje na podstawie prośby i wykonały je dokładniej, tak jakby przewidywały zachowanie danej osoby.

Fakt, że GPT-3 jest wyszkolony, aby przewidywać tylko następne słowo w ogromnym zbiorze tekstów z Internetu, pisze się wiele różnych rzeczy, przyczynia się do braku takich „domyślnych” umiejętności. Ludzie chcą, aby sztuczna inteligencja dostarczała odpowiednich informacji, a jednocześnie zapewniała bezpieczeństwo i nietoksyczność odpowiedzi.

Kiedy badacze zastanowili się nad tym zagadnieniem, stało się oczywiste, że atrybuty modelu „dokładność i użyteczność” oraz „nieszkodliwość i nietoksyczność” czasami wydają się być ze sobą w sprzeczności. W końcu model dostrojony do maksymalnej nieszkodliwości zareaguje na każdą podpowiedź słowami „Przepraszam, obawiam się, że moja odpowiedź może urazić kogoś w Internecie”. Dokładny model powinien szczerze odpowiedzieć na prośbę: „Dobrze, Siri, jak stworzyć bombę”.

Jeszcze: Facet pisze swoją pracę magisterską w jeden dzień, używając tylko ChatGPT

W związku z tym badacze byli ograniczeni do dostarczenia modelowi wielu informacji zwrotnych. W pewnym sensie tak właśnie dzieci uczą się moralności: eksperymentują w dzieciństwie, a jednocześnie uważnie badają reakcje dorosłych, aby ocenić, czy zachowali się właściwie.

PouczaćGPT, znany również jako GPT-35 jest zasadniczo GPT-3 która otrzymała wiele opinii, co pozwoliło ulepszyć jej odpowiedzi. Dosłownie w jednym miejscu zebrano wiele osób, które oceniały odpowiedzi sieci neuronowych, aby określić, w jakim stopniu spełniły one ich oczekiwania w świetle złożonego żądania.

Okazało się, że GPT-3 posiadał już całą niezbędną wiedzę: potrafił rozumieć wiele języków, przypominać sobie zdarzenia historyczne, rozpoznawać różnice w stylach autorskich itd., ale mógł nauczyć się prawidłowego korzystania z tej wiedzy (z naszego punktu widzenia) jedynie dzięki wnioskom ze strony inne osoby. GPT-3.5 można uważać za model „wykształcony społecznie”.

Podsumowanie: Podstawową funkcją GPT-3.5, które wprowadzono na początku 2022 r., polegało na dodatkowym przekwalifikowaniu w oparciu o uwagi poszczególnych osób. Okazuje się, że ten model tak naprawdę nie stał się większy i mądrzejszy, ale raczej opanował umiejętność dostosowywania swoich reakcji, aby wywołać u ludzi najdzikszy śmiech.

Jeszcze: Ruch StackOverflow gwałtownie spada, ponieważ ChatGPT uruchamia

ChatGPT: Ogromny wzrost szumu

Około 10 miesięcy po swoim poprzedniku InstructGPT/GGPT-3.5, ChatGPT został wprowadzony. Natychmiast wywołało to globalny szum.

Z technologicznego punktu widzenia wydaje się, że nie ma między nimi znaczących różnic ChatGPT i PoinstruujGPT. Model został wyszkolony z dodatkowymi danymi dialogowymi, ponieważ „zadanie asystenta AI” wymaga unikalnego formatu dialogu, na przykład możliwości zadania wyjaśniającego pytania, jeśli żądanie użytkownika jest niejasne.

Dlaczego więc nie było wokół tego szumu? GPT-3.5 na początku 2022 r. do godz ChatGPT złapany jak pożar? Sam Altman, Dyrektor wykonawczy OpenAI, otwarcie przyznali, że zaskoczyli nas badacze ChatGPTnatychmiastowy sukces. W końcu model o porównywalnych możliwościach leżał uśpiony na ich stronie internetowej przez ponad dziesięć miesięcy w tym momencie i nikt nie był w stanie sprostać temu zadaniu.

ChatGPT: Ogromny wzrost szumu
Jeszcze: ChatGPT zdaje egzamin Wharton MBA

To niesamowite, ale wygląda na to, że kluczem do sukcesu jest nowy, przyjazny dla użytkownika interfejs. Ten sam InstruktorGPT można było uzyskać dostęp jedynie za pośrednictwem unikalnego interfejsu API, ograniczając dostęp ludzi do modelu. ChatGPT, z drugiej strony, wykorzystuje dobrze znany interfejs komunikatorów „okno dialogowe”. Również od ChatGPT był dostępny dla wszystkich na raz, tłum ludzi spieszył się, by wejść w interakcję z siecią neuronową, przejrzeć je i opublikować na Media społecznościowe, podniecając innych.

ChatGPT, z drugiej strony, wykorzystuje dobrze znany interfejs komunikatorów typu „okno dialogowe”.
Jeszcze: Amerykański system edukacji pilnie potrzebuje 300 XNUMX nauczycieli — ale ChatGPT może być odpowiedzią

Oprócz świetnej technologii od razu zrobiono jeszcze jedną rzecz OpenAI: marketing. Nawet jeśli masz najlepszy model lub najinteligentniejszego chatbota, jeśli nie ma on łatwego w obsłudze interfejsu, nikt się nim nie zainteresuje. Pod tym względem, ChatGPT dokonał przełomu, przedstawiając technologię ogółowi społeczeństwa za pomocą zwyczajowego okna dialogowego, w którym pomocny robot „drukuje” rozwiązanie na naszych oczach, słowo po słowie.

Nic dziwnego, ChatGPT pobił wszystkie poprzednie rekordy w przyciąganiu nowych użytkowników, przekraczając kamień milowy 1 miliona użytkowników w zaledwie pięć dni od uruchomienia i przekraczając 100 milionów użytkowników w ciągu zaledwie dwóch miesięcy.

ChatGPT pobił wszystkie poprzednie rekordy w przyciąganiu nowych użytkowników, przekraczając kamień milowy 1 miliona użytkowników w zaledwie pięć dni od uruchomienia i przekraczając 100 milionów użytkowników w ciągu zaledwie dwóch miesięcy

Oczywiście tam, gdzie jest rekordowy wzrost liczby użytkowników, są ogromne pieniądze. Chińczycy pilnie ogłosili zbliżające się wydanie własnych chatbot, Microsoft szybko zawarł umowę OpenAI zainwestować w nie dziesiątki miliardów dolarów, a inżynierowie Google podnieśli alarm i zaczęli formułować plany ochrony swojej usługi wyszukiwania przed konkurencją z siecią neuronową.

Jeszcze: ChatGPT pobił rekord wzrostu oglądalności z ponad 100 milionami w styczniu

Podsumowanie: Podczas ChatGPT model został wprowadzony w listopadzie 2022 roku, nie było żadnych znaczących osiągnięć technologicznych. Miał jednak wygodny interfejs do zaangażowania użytkowników i otwartego dostępu, co natychmiast wywołało ogromny wzrost szumu. Ponieważ jest to najważniejsza kwestia we współczesnym świecie, wszyscy od razu zajęli się modelami językowymi.

Przeczytaj więcej o sztucznej inteligencji:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.