GPT-4Wyciekłe szczegóły rzucają światło na jego ogromną skalę i imponującą architekturę
W skrócie
Wyciekły informacje dot GPT-4 wywołało podekscytowanie wśród społeczności AI. Dzięki ponad 10-krotnie większym parametrom od swojego poprzednika, GPT-3, GPT-4 szacuje się, że ma 1.8 biliona parametrów rozmieszczonych w 120 warstwach.
OpenAI wdrożył model mieszany ekspertów (MoE), wykorzystujący 16 ekspertów ze 111 miliardami parametrów dla wielowarstwowych perceptronów (MLP). Wydajny proces wnioskowania modelu wykorzystuje 280 miliardów parametrów i 560 TFLOP na przejście do przodu, demonstrując OpenAIzaangażowanie firmy w maksymalizację wydajności i opłacalności. Zestaw danych szkoleniowych modelu obejmuje 13 bilionów tokenów, z możliwością dostrojenia od 8 do 32 tys.
OpenAI wykorzystał paralelizm w GPT-4 aby wykorzystać pełny potencjał swoich procesorów graficznych A100, stosując 8-kierunkową równoległość tensorową i 15-kierunkową równoległość potokową. Proces szkolenia był rozległy i wymagał dużych zasobów, a jego koszty wahały się od 32 do 63 milionów dolarów.
GPT-4koszt wnioskowania jest w przybliżeniu trzy razy wyższy niż w przypadku jego poprzednika, ale uwzględnia także obsługę wielu zapytań, ciągłe przetwarzanie wsadowe i dekodowanie spekulatywne. Architektura wnioskowania działa na klastrze 128 procesorów graficznych rozmieszczonych w wielu centrach danych.
Niedawny wyciek szczegółów dot GPT-4 wywołało falę szoku w społeczności AI. Informacje, które wyciekły, uzyskane z nieujawnionego źródła, dają wgląd w inspirujące możliwości i niespotykaną dotąd skalę tego przełomowego modelu. Rozbijemy fakty i odkryjemy najważniejsze aspekty, które o tym decydują GPT-4 prawdziwy cud techniki.
- GPT-4Ogromna liczba parametrów
- Model mieszanki ekspertów (MoE)
- Uproszczony algorytm routingu MoE
- Efektywne wnioskowanie
- Obszerny zestaw danych szkoleniowych
- Udoskonalenie poprzez dostrajanie od 8K do 32K
- Skalowanie z procesorami graficznymi poprzez równoległość
- Wyzwania związane z kosztami szkolenia i wykorzystaniem
- Kompromisy w mieszance ekspertów
- Koszt wnioskowania
- Uwaga dotycząca wielu zapytań
- Ciągłe dozowanie
- Wizja multimodalna
- Dekodowanie spekulatywne
- Architektura wnioskowania
- Rozmiar i skład zbioru danych
- Plotki i spekulacje
- Opinia reportera
- Fascynacja GPT-4Wiedza
- Wszechstronność GPT-4
GPT-4Ogromna liczba parametrów
Jednym z najbardziej uderzających odkryć wycieku jest sama skala GPT-4. Może poszczycić się zdumiewającymi rozmiarami, ponad 10-krotnie większymi parametrami od swojego poprzednika, GPT-3. Szacuje się, że jest to oszałamiająca liczba wynosząca około 1.8 bilion parametrów rozmieszczone na imponujących 120 warstwach. Ten znaczny wzrost skali niewątpliwie się do tego przyczynia GPT-4ulepszone możliwości i potencjał przełomowych postępów.
Model mieszanki ekspertów (MoE)
Aby zapewnić rozsądne koszty przy zachowaniu wyjątkowej wydajności, OpenAI wdrożył model mieszanki ekspertów (MoE) w GPT-4. Wykorzystując w modelu 16 ekspertów, z których każdy składa się z około 111 miliardów parametrów perceptronów wielowarstwowych (MLP), OpenAI skutecznie zoptymalizowana alokacja zasobów. Warto zauważyć, że podczas każdego przejścia w przód kierowanych jest tylko dwóch ekspertów, co minimalizuje wymagania obliczeniowe bez uszczerbku dla wyników. To innowacyjne podejście pokazuje OpenAIzaangażowanie firmy w maksymalizację wydajności i opłacalności w swoich modelach.
Bardzo ciekawy i szczegółowy wyciek GPT-4 architektury, ze znakomitą analizą uzasadnienia i wynikających z niej konsekwencji – autorstwa @dylan522p :https://t.co/eHE7VlGY5V
— Jan P. Harries (@jphme) 11 lipca 2023 r.
Podsumowanie, które nie jest płatne, można znaleźć tutaj: https://t.co/rLxw5s9ZDt
Uproszczony algorytm routingu MoE
Podczas gdy model często wykorzystuje zaawansowane algorytmy routingu w celu wybrania ekspertów do obsługi każdego tokena, OpenAIpodejście w nurcie GPT-4 model jest podobno prostszy. Algorytm routingu stosowany przez sztuczną inteligencję jest rzekomo stosunkowo prosty, ale mimo to skuteczny. Około 55 miliardów wspólnych parametrów uwagi ułatwia efektywną dystrybucję tokenów do odpowiednich ekspertów w ramach modelu.
Efektywne wnioskowanie
GPT-4Proces wnioskowania zastosowany w programie demonstruje jego efektywność i możliwości obliczeniowe. Każde przejście w przód przeznaczone do wygenerowania pojedynczego tokena wykorzystuje około 280 miliardów parametrów i 560 TFLOP (tera operacji zmiennoprzecinkowych na sekundę). Stanowi to wyraźny kontrast w stosunku do ogromnej skali GPT-4, z 1.8 biliona parametrów i 3,700 TFLOPami na przejście do przodu w czysto gęstym modelu. Najważniejsze jest efektywne wykorzystanie zasobów OpenAIzaangażowanie firmy w osiągnięcie optymalnej wydajności bez nadmiernych wymagań obliczeniowych.
Obszerny zestaw danych szkoleniowych
GPT-4 został przeszkolony na kolosalnym zbiorze danych obejmującym około 13 bilionów tokenów. Należy zauważyć, że tokeny te obejmują zarówno tokeny unikalne, jak i tokeny odpowiadające numerom epok. The proces szkoleniowy obejmuje dwie epoki dla danych tekstowych i cztery epoki dla danych opartych na kodzie. OpenAI wykorzystał miliony wierszy danych dostrajających instrukcje, pochodzących ze ScaleAI i wewnętrznie, aby udoskonalić wydajność modelu.
Udoskonalenie poprzez dostrajanie od 8K do 32K
Faza przedszkoleniowa GPT-4 zastosował długość kontekstu 8 tys. Następnie model przeszedł dostrajanie, w wyniku czego powstała wersja 32k. Postęp ten opiera się na fazie przedszkoleniowej, zwiększając możliwości modelu i dostosowując go do konkretnych zadań.
Skalowanie z procesorami graficznymi poprzez równoległość
OpenAI wykorzystał siłę równoległości w GPT-4 aby wykorzystać pełny potencjał swoich procesorów graficznych A100. Zastosowali 8-kierunkową równoległość tensorów, która maksymalizuje przetwarzanie równoległe, ponieważ jest to limit dla NVLink. Dodatkowo w celu dalszego zwiększenia wydajności wykorzystano 15-kierunkową równoległość potoku. Chociaż prawdopodobnie zastosowano określone techniki, takie jak ZeRo Stage 1, dokładna metodologia pozostaje nieujawniona.
Wyzwania związane z kosztami szkolenia i wykorzystaniem
Trening GPT-4 było przedsięwzięciem szeroko zakrojonym i wymagającym dużych zasobów. OpenAI przydzielono około 25,000 100 procesorów graficznych A90 na okres od 100 do 32 dni, pracując przy wskaźniku wykorzystania około 36% do 1% MFU (najczęściej używane). Proces szkolenia powodował liczne awarie, powodujące konieczność częstych restartów z punktów kontrolnych. Jeśli szacuje się na 100 USD za AXNUMX godzin, koszty szkolenia tylko dla tego biegu wyniosłoby około 63 miliony dolarów.
Kompromisy w mieszance ekspertów
Wdrożenie modelu mieszanki ekspertów wiąże się z kilkoma kompromisami. W przypadku GPT-4, OpenAI wybrała 16 ekspertów zamiast większej liczby. Ta decyzja odzwierciedla równowagę między osiąganiem doskonałych wyników strat a zapewnieniem możliwości uogólnienia w różnych zadaniach. Więcej ekspertów może stawić czoła wyzwaniom w zakresie generalizacji zadań i konwergencji. OpenAIwybór ćwiczeń ostrożność u eksperta wybór jest zgodny z ich zaangażowaniem w niezawodne i solidne działanie.
Koszt wnioskowania
W porównaniu do swojego poprzednika, modelu Davinci o 175 miliardach parametrów, GPT-4koszt wnioskowania jest około trzykrotnie wyższy. Tę rozbieżność można przypisać kilku czynnikom, w tym większym klastrom wymaganym do wsparcia GPT-4 oraz mniejsze wykorzystanie osiągnięte podczas wnioskowania. Szacunki wskazują przybliżony koszt na poziomie 0.0049 centów za 1,000 tokenów w przypadku 128 procesorów graficznych A100 i 0.0021 centów za 1,000 tokenów w przypadku 128 procesorów graficznych H100. GPT-4 z 8 tys. Liczby te zakładają przyzwoite wykorzystanie i duże wielkości partii, co jest kluczowym czynnikiem optymalizacji kosztów.
Uwaga dotycząca wielu zapytań
OpenAI wykorzystuje uwagę wielu zapytań (MQA), technikę szeroko stosowaną w tej dziedzinie, w GPT-4 również. Dzięki implementacji MQA model wymaga tylko jednej głowicy, co znacznie zmniejsza pojemność pamięci niezbędną dla pamięci podręcznej klucz-wartość (pamięć podręczna KV). Pomimo tej optymalizacji należy zauważyć, że partia 32 tys GPT-4 nie można zmieścić na procesorach graficznych A40 o pojemności 100 GB, a wielkość 8k jest ograniczona maksymalnym rozmiarem partii.
Ciągłe dozowanie
Aby znaleźć równowagę między opóźnieniem a kosztami wnioskowania, OpenAI obejmuje zarówno partie o zmiennej wielkości, jak i ciągłe dozowanie GPT-4. To adaptacyjne podejście pozwala na elastyczne i wydajne przetwarzanie, optymalizując wykorzystanie zasobów i zmniejszając obciążenie obliczeniowe.
Wizja multimodalna
GPT-4 obok kodera tekstowego wprowadza oddzielny koder wizyjny, umożliwiający wzajemną uwagę między nimi. Architektura ta, przypominająca Flamingo, dodaje dodatkowe parametry do już imponującej liczby 1.8 biliona parametrów GPT-4. Model wizji przechodzi oddzielne dostrajanie przy użyciu około 2 bilionów tokenów po fazie wstępnego szkolenia zawierającej wyłącznie tekst. Ta zdolność widzenia wzmacnia autonomiczni agenci do czytania stron internetowych, transkrypcji obrazów i interpretowania treści wideo – bezcenna zaleta w epoce danych multimedialnych.
Dekodowanie spekulatywne
Ciekawy aspekt GPT-4Strategią wnioskowania jest możliwe wykorzystanie dekodowania spekulatywnego. Takie podejście polega na zatrudnieniu mniejszego, szybszego model generować prognozy dla wielu tokenów z wyprzedzeniem. Te przewidywane tokeny są następnie wprowadzane do większego modelu „wyroczni” jako pojedyncza partia. Jeśli mniejszy przewidywania modelu zgadzają się z umową większego modelu, kilka tokenów można zdekodować razem. Jeśli jednak większy model odrzuci tokeny przewidziane przez wersję roboczą modelu, reszta partii zostanie odrzucona, a wnioskowanie będzie kontynuowane wyłącznie na większym modelu. Takie podejście pozwala na wydajne dekodowanie, potencjalnie akceptując sekwencje o niższym prawdopodobieństwie. Warto zauważyć, że spekulacje te pozostają obecnie niepotwierdzone.
Architektura wnioskowania
GPT-4proces wnioskowania działa na klastrze 128 procesorów graficznych rozmieszczonych w wielu centrach danych w różnych lokalizacjach. Infrastruktura ta wykorzystuje 8-kierunkową równoległość tensorów i 16-kierunkową równoległość potoków, aby zmaksymalizować wydajność obliczeniową. Każdy węzeł, składający się z 8 procesorów graficznych, obsługuje około 130 miliardów parametrów. Przy rozmiarze modelu wynoszącym 120 warstw, GPT-4 może zmieścić się w 15 różnych węzłach, prawdopodobnie z mniejszą liczbą warstw w pierwszym węźle ze względu na konieczność obliczania osadzania. Te wybory architektoniczne ułatwiają wnioskowanie o wysokiej wydajności i demonstrację OpenAIzaangażowanie firmy w przesuwanie granic wydajności obliczeniowej.
Rozmiar i skład zbioru danych
GPT-4 został przeszkolony na imponujących 13 bilionach tokenów, zapewniając mu obszerny zbiór tekstu do nauki. Jednak nie wszystkie tokeny można uwzględnić w znanych zbiorach danych używanych podczas szkolenia. Chociaż zbiory danych, takie jak CommonCrawl i RefinedWeb, stanowią znaczną część dane treningowe, pozostaje część tokenów, które są nieuwzględnione, często określane jako „tajne” dane.
Plotki i spekulacje
Pojawiły się spekulacje na temat pochodzenia tych nieujawnionych danych. Jedna z plotek sugeruje, że obejmuje treści z popularnych platform, takich jak Twitter, Reddit i YouTube, co podkreśla potencjalny wpływ treści generowanych przez użytkowników na kształtowanie GPT-4bazę wiedzy. Ponadto istnieją przypuszczenia dotyczące włączenia rozległych zbiorów, takich jak LibGen, repozytorium milionów książek i Sci-Hub, platforma zapewniająca dostęp do licznych artykułów naukowych. Pojęcie, że GPT-4 został przeszkolony na całym GitHubie i rozprzestrzenił się także wśród entuzjastów sztucznej inteligencji.
Opinia reportera
Chociaż istnieje wiele plotek, ważne jest, aby podchodzić do nich z ostrożnością. Szkolenie GPT-4 mogli odnieść ogromne korzyści ze specjalnego zbioru danych utworzonego z podręczników uniwersyteckich. Ten zbiór danych, obejmujący szeroki zakres kursów i przedmiotów, mógł zostać starannie zebrany ręcznie. Podręczniki uniwersyteckie zapewniają uporządkowaną i wszechstronną bazę wiedzy, którą można z powodzeniem wykorzystać do szkolenia modelu językowego i którą można łatwo przekształcić w pliki tekstowe. Włączenie takiego zbioru danych mogłoby sprawiać takie wrażenie GPT-4 posiada wiedzę z różnych dziedzin.
Fascynacja GPT-4Wiedza
Jeden intrygujący aspekt GPT-4szkolenie polega na umiejętności wykazywania znajomości konkretnych książek, a nawet przywoływania unikalnych identyfikatorów z platform takich jak Project Euler. Naukowcy próbowali wyodrębnić zapamiętane fragmenty książek GPT-4 aby uzyskać wgląd w jego trening, co jeszcze bardziej podsyca ciekawość wewnętrznego działania modelu. Odkrycia te podkreślają zdumiewającą zdolność GPT-4 zachować informacje i podkreślić imponujące możliwości wielkoskalowych modeli językowych.
Wszechstronność GPT-4
Szerokie spektrum tematów i dziedzin, które GPT-4 pozornie może nawiązać kontakt z wizytówką jego wszechstronności. Niezależnie od tego, czy chodzi o odpowiadanie na złożone pytania z zakresu informatyki, czy zagłębianie się w debaty filozoficzne, GPT-4Szkolenie na zróżnicowanym zestawie danych pozwala na interakcję z użytkownikami z różnych domen. Ta wszechstronność wynika z dostępu do szerokiej gamy zasobów tekstowych, co czyni go cennym narzędziem dla szerokiego grona użytkowników.
Przeczytaj więcej o sztucznej inteligencji:
Odpowiedzialność
Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.
O autorze
Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.
Więcej artykułówDamir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym.