İyul 11, 2023

GPT-4Sızan təfərrüatlar onun böyük miqyasına və təsirli arxitekturasına işıq salır

Dərc olundu: 11 iyul 2023-cü il, saat 7:19-də Yeniləndi: 11 iyul 2023-cü il, saat 7:23-da

Redaktə edilib və fakt yoxlanılıb: 11 iyul 2023-cü il, saat 7:19

Qısaca

Haqqında sızan məlumatlar GPT-4 süni intellekt ictimaiyyəti arasında həyəcana səbəb oldu. Sələfindən 10 dəfə çox parametrlərlə, GPT-3, GPT-4 1.8 təbəqədə paylanmış 120 trilyon parametrə malik olduğu təxmin edilir.

OpenAI çox qatlı perseptronlar (MLP) üçün 16 milyard parametrə malik 111 ekspertdən istifadə edərək, ekspertlərin qarışığı (TN) modelini həyata keçirmişdir. Modelin səmərəli nəticə çıxarma prosesi hər irəli keçiddə 280 milyard parametrdən və 560 TFLOP-dan istifadə edir. OpenAIsəmərəliliyi və qənaətcilliyi maksimuma çatdırmaq öhdəliyi. Modelin təlim verilənlər bazasına 13k-dan 8k-a qədər incə tənzimləmə ilə 32 trilyon token daxildir.

OpenAI paralellikdən istifadə etmişdir GPT-4 100-yollu tenzor paralelizmi və 8-yollu boru xətti paralelizmindən istifadə edərək, A15 GPU-larının bütün potensialından istifadə etmək. Təlim prosesi geniş və resurs tutumlu olub, xərcləri 32 milyon dollardan 63 milyon dollara qədər təşkil edib.

GPT-4's nəticə çıxarma dəyəri sələfindən təxminən üç dəfə yüksəkdir, lakin o, çoxlu sorğu diqqətini, davamlı toplulaşdırma və spekulyativ kodlaşdırmanı özündə birləşdirir. Nəticə arxitekturası çoxsaylı məlumat mərkəzlərində paylanmış 128 GPU-dan ibarət çoxluqda işləyir.

Ətrafdakı təfərrüatların son sızması GPT-4 süni intellekt cəmiyyətinə şok dalğaları göndərdi. Açıqlanmayan mənbədən əldə edilən sızdırılmış məlumat bu təməlqoyma modelinin heyranedici imkanlarına və görünməmiş miqyasına nəzər salır. Biz faktları parçalayacağıq və əsas aspektləri açacağıq GPT-4 əsl texnoloji möcüzə.

GPT-4Sızan təfərrüatlar onun böyük miqyasına və təsirli arxitekturasına işıq salır — Kredit: Metaverse Post (mpost.io)

GPT-4's Massive Parameters Count

Sızıntının ən təəccüblü açıqlamalarından biri, sırf böyüklüyüdür GPT-4. O, sələfindən 10 dəfə çox parametrlərlə heyrətamiz ölçülərə malikdir, GPT-3. Təxminən 1.8 heyrətamiz cəmi olduğu təxmin edilir trilyon parametrlər təsirli 120 təbəqəyə yayılmışdır. Şübhəsiz ki, miqyasda bu əhəmiyyətli artım öz töhfəsini verir GPT-4nin təkmilləşdirilmiş imkanları və əsaslı irəliləyişlər üçün potensial.

Ekspertlərin Qarışıq Modeli (MN)

Müstəsna performansı qoruyarkən məqbul xərcləri təmin etmək, OpenAI ildə ekspertlərin qarışığı (TN) modelini tətbiq etdi GPT-4. Model daxilində hər biri çox qatlı qəbuledicilər (MLP) üçün təxminən 16 milyard parametrdən ibarət 111 ekspertdən istifadə etməklə, OpenAI səmərəli optimallaşdırılmış resurs bölgüsü. Qeyd edək ki, hər bir irəli keçid zamanı yalnız iki ekspert istiqamətləndirilir və nəticədən ödün vermədən hesablama tələblərini minimuma endirir. Bu yenilikçi yanaşma nümayiş etdirir OpenAIöz modellərində səmərəliliyi və qənaətcilliyi maksimuma çatdırmaq öhdəliyi.

Çox maraqlı və ətraflı sızma GPT-4 arxitektura, onun arxasındakı əsaslandırmanın və onun nəticələrinin əla təhlili ilə – tərəfindən @dylan522p :https://t.co/eHE7VlGY5V

Ödənişli olmayan xülasəni burada tapa bilərsiniz: https://t.co/rLxw5s9ZDt
- Jan P. Harries (@jphme) İyul 11, 2023

Sadələşdirilmiş TN Yönləndirmə Alqoritmi

Model tez-tez hər bir işarəni idarə etmək üçün mütəxəssislər seçmək üçün qabaqcıl marşrutlaşdırma alqoritmlərini araşdırsa da, OpenAInin cari yanaşması GPT-4 modelin daha sadə olduğu bildirilir. Süni intellekt tərəfindən istifadə edilən marşrutlaşdırma alqoritminin nisbətən sadə, lakin buna baxmayaraq effektiv olduğu iddia edilir. Diqqət üçün təxminən 55 milyard paylaşılan parametrlər model daxilində müvafiq ekspertlərə tokenlərin səmərəli paylanmasını asanlaşdırır.

Effektiv Nəticə

GPT-4nin nəticə çıxarma prosesi onun səmərəliliyini və hesablama bacarığını nümayiş etdirir. Tək token yaratmağa həsr olunmuş hər bir irəli keçid təxminən 280 milyard parametrdən və 560 TFLOP-dan (saniyədə tera üzən nöqtə əməliyyatları) istifadə edir. Bu, nəhəng miqyasla tamamilə ziddiyyət təşkil edir GPT-4, 1.8 trilyon parametri və sırf sıx modeldə irəli keçid başına 3,700 TFLOP ilə. Resurslardan səmərəli istifadəni vurğulayır OpenAIhəddindən artıq hesablama tələbləri olmadan optimal performansa nail olmaq üçün sədaqəti.

Geniş Təlim Data Seti

GPT-4 təqribən 13 trilyon tokendən ibarət nəhəng verilənlər bazasında təlim keçmişdir. Qeyd etmək vacibdir ki, bu tokenlərə həm unikal tokenlər, həm də dövr nömrələrini hesablayan tokenlər daxildir. The təlim prosesi mətn əsaslı məlumatlar üçün iki dövr və kod əsaslı məlumatlar üçün dörd dövr daxildir. OpenAI modelin performansını təkmilləşdirmək üçün ScaleAI-dən və daxili olaraq əldə edilən milyonlarla sıra təlimat dəqiqləşdirmə məlumatlarından istifadə etdi.

Təlimdən əvvəlki mərhələ GPT-4 8k kontekst uzunluğundan istifadə etdi. Sonradan model incə tənzimləmədən keçdi və nəticədə 32k versiyası əldə edildi. Bu irəliləyiş, modelin imkanlarını artıraraq və onu xüsusi tapşırıqlara uyğunlaşdıraraq, hazırlıqdan əvvəlki mərhələyə əsaslanır.

Paralellik vasitəsilə GPU-larla miqyaslama

OpenAI paralellik gücündən istifadə etdi GPT-4 A100 GPU-larının bütün potensialından istifadə etmək. Onlar NVLink üçün limit olduğu üçün paralel işləməni maksimuma çatdıran 8 yollu tenzor paralelizmindən istifadə etdilər. Bundan əlavə, performansı daha da artırmaq üçün 15 yollu boru kəməri paralelliyindən istifadə edilmişdir. ZeRo Mərhələ 1 kimi xüsusi texnikalardan istifadə olunsa da, dəqiq metodologiya açıqlanmır.

Təlim Xərcləri və İstifadə Problemləri

təlim GPT-4 geniş və resurs tutumlu bir iş idi. OpenAI 25,000-100 gün müddətində təxminən 90 A100 GPU ayırdı və təxminən 32% - 36% MFU (ən çox istifadə olunur) istifadə nisbətində işləyir. Təlim prosesi çoxsaylı uğursuzluqlarla üzləşdi, bu da yoxlama məntəqələrindən tez-tez yenidən başlamağı tələb etdi. A1 saat üçün 100 dollar olaraq təxmin edilirsə təlim xərcləri Təkcə bu qaçış üçün təxminən 63 milyon dollar olacaq.

Mütəxəssislərin Qarışıqlığında Mübadilələr

Mütəxəssislərin qarışığı modelinin tətbiqi bir neçə güzəşt təqdim edir. halda GPT-4, OpenAI daha yüksək sayı əvəzinə 16 ekspert seçdi. Bu qərar üstün itki nəticələrinə nail olmaq və müxtəlif tapşırıqlar üzrə ümumiləşdirmənin təmin edilməsi arasında tarazlığı əks etdirir. Daha çox ekspert tapşırıqların ümumiləşdirilməsi və yaxınlaşması baxımından problemlər təqdim edə bilər. OpenAIidman etmək seçimi ekspertdə diqqətli olun seçim onların etibarlı və möhkəm performansa sadiqliyinə uyğundur.

Nəticə dəyəri

Sələfi ilə müqayisədə 175 milyard parametrli Davinci modeli, GPT-4nin çıxarış dəyəri təxminən üç dəfə yüksəkdir. Bu uyğunsuzluq dəstək üçün tələb olunan daha böyük qruplar da daxil olmaqla bir neçə amillə əlaqələndirilə bilər GPT-4 və nəticə çıxararkən əldə edilən daha az istifadə. Hesablamalar, nəticə çıxararkən 0.0049 A1,000 GPU üçün 128 token üçün təxminən $100 sent və 0.0021 H1,000 GPU üçün 128 token üçün $100 sent təşkil edir. GPT-4 8k ilə. Bu rəqəmlər layiqli istifadəni və yüksək partiya ölçülərini, xərclərin optimallaşdırılması üçün vacib mülahizələri nəzərdə tutur.

Çox Sorğu Diqqəti

OpenAI Bu sahədə geniş istifadə olunan bir texnika olan çox sorğu diqqətindən (MQA) istifadə edir GPT-4 həmçinin. MQA-nı tətbiq etməklə, model yalnız bir başlıq tələb edir, açar-dəyər keşi (KV keşi) üçün lazım olan yaddaş tutumunu əhəmiyyətli dərəcədə azaldır. Bu optimallaşdırmaya baxmayaraq, 32k partiyanın olduğunu qeyd etmək lazımdır GPT-4 40GB A100 GPU-lara yerləşdirilə bilməz və 8k maksimum toplu ölçüsü ilə məhdudlaşdırılır.

Davamlı Batching

Gecikmə və nəticə çıxarma xərcləri arasında tarazlıq yaratmaq üçün, OpenAI həm dəyişən partiya ölçülərini, həm də davamlı partiyanı özündə birləşdirir GPT-4. Bu adaptiv yanaşma çevik və səmərəli emal etməyə, resursdan istifadəni optimallaşdırmağa və hesablama xərclərini azaltmağa imkan verir.

GPT-4 mətn kodlayıcısı ilə yanaşı, ikisi arasında çarpaz diqqəti əks etdirən ayrıca görmə kodlayıcısını təqdim edir. Flamingonu xatırladan bu arxitektura onsuz da təsir edici olan 1.8 trilyon parametr sayına əlavə parametrlər əlavə edir. GPT-4. Görmə modeli, yalnız mətndən əvvəl təlim mərhələsindən sonra təxminən 2 trilyon tokendən istifadə edərək ayrıca incə tənzimləmədən keçir. Bu görmə qabiliyyəti gücləndirir muxtar agentlər veb səhifələri oxumaq, şəkilləri transkripsiya etmək və video məzmunu şərh etmək - multimedia məlumatları əsrində əvəzolunmaz sərvətdir.

Spekulyativ dekodlaşdırma

Maraqlı bir tərəfi GPT-4's nəticə strategiyası spekulyativ deşifrənin mümkün istifadəsidir. Bu yanaşma daha kiçik, daha sürətli istifadə etməyi nəzərdə tutur model əvvəlcədən birdən çox token üçün proqnozlar yaratmaq. Bu proqnozlaşdırılan tokenlər daha sonra tək partiya olaraq daha böyük bir “oracle” modelinə verilir. Əgər daha kiçikdirsə modelin proqnozları daha böyük modelin razılığı ilə uyğunlaşdıqda, bir neçə token birlikdə deşifrə edilə bilər. Bununla belə, daha böyük model qaralama model tərəfindən proqnozlaşdırılan nişanları rədd edərsə, partiyanın qalan hissəsi atılır və nəticə yalnız daha böyük modellə davam edir. Bu yanaşma potensial olaraq daha aşağı ehtimal ardıcıllığını qəbul edərkən effektiv dekodlamağa imkan verir. Qeyd etmək lazımdır ki, bu fərziyyə hazırda təsdiqlənməmiş olaraq qalır.

Nəticə Memarlığı

GPT-4nin nəticə çıxarma prosesi müxtəlif yerlərdə çoxlu məlumat mərkəzləri arasında paylanmış 128 GPU-dan ibarət çoxluqda işləyir. Bu infrastruktur hesablama səmərəliliyini maksimuma çatdırmaq üçün 8 yollu tenzor paralelizmindən və 16 yollu boru xətti paralelliyindən istifadə edir. 8 GPU-dan ibarət hər bir qovşaq təxminən 130 milyard parametrə malikdir. Model ölçüsü 120 təbəqə ilə, GPT-4 15 müxtəlif qovşaq daxilində yerləşə bilər, ola bilsin ki, yerləşdirmələri hesablamaq zərurəti ilə birinci qovşaqda daha az təbəqə ilə. Bu memarlıq seçimləri nümayiş etdirərək yüksək performanslı nəticə çıxarmağı asanlaşdırır OpenAI's hesablama səmərəliliyinin sərhədlərini itələmək öhdəliyi.

Dataset ölçüsü və tərkibi

GPT-4 təsirli 13 trilyon token üzərində təlim keçmiş və onu öyrənmək üçün geniş mətn korpusu ilə təmin etmişdir. Bununla belə, bütün tokenlər təlim zamanı istifadə edilən məlum verilənlər dəstləri ilə uçota alına bilməz. CommonCrawl və RefinedWeb kimi verilənlər bazası məlumatların əhəmiyyətli bir hissəsini verir təlim məlumatları, tez-tez "gizli" məlumatlar kimi istinad edilən, uçota alınmayan tokenlərin bir hissəsi qalır.

Şayiələr və Fərziyyələr

Bu açıqlanmayan məlumatların mənşəyi ilə bağlı fərziyyələr ortaya çıxdı. Bir şayiə onu göstərir ki, o, Twitter, Reddit və YouTube kimi populyar platformaların məzmununu ehtiva edir və istifadəçi tərəfindən yaradılan məzmunun formalaşmada potensial təsirini vurğulayır. GPT-4bilik bazası. Bundan əlavə, milyonlarla kitabın deposu olan LibGen və çoxsaylı elmi məqalələrə çıxışı təmin edən platforma olan Sci-Hub kimi geniş kolleksiyaların daxil edilməsi ilə bağlı fərziyyələr var. Bu anlayış GPT-4 GitHub-da bütövlükdə təlim keçdi, AI həvəskarları arasında da yayıldı.

Reportyorun rəyi

Çox söz-söhbət olsa da, bu söz-söhbətlərə ehtiyatla yanaşmaq lazımdır. -nin təlimi GPT-4 kollec dərsliklərindən ibarət xüsusi verilənlər toplusundan çox faydalanmış ola bilər. Geniş kursları və mövzuları əhatə edən bu məlumat dəsti əl ilə zəhmətlə yığıla bilərdi. Kollec dərslikləri dil modelini öyrətmək üçün uğurla istifadə edilə bilən və asanlıqla mətn fayllarına çevrilə bilən strukturlaşdırılmış və hərtərəfli bilik bazası təmin edir. Belə bir məlumat dəstinin daxil edilməsi belə təəssürat yarada bilər GPT-4 müxtəlif sahələrdə biliklərə malikdir.

The Fascination with GPT-4Bilik

Bir maraqlı tərəfi GPT-4's təlimi onun xüsusi kitablarla tanışlıq nümayiş etdirmək və hətta Project Euler kimi platformalardan unikal identifikatorları geri çağırmaq bacarığıdır. Tədqiqatçılar kitabların əzbərlənmiş hissələrini onlardan çıxarmağa çalışıblar GPT-4 onun təlimi ilə bağlı anlayışlar əldə etmək, modelin daxili işlərinə marağı daha da artırmaq. Bu kəşflər heyrətamiz qabiliyyətini vurğulayır GPT-4 məlumatı saxlamaq və geniş miqyaslı dil modellərinin təsirli imkanlarını vurğulamaq.

Çox yönlülük GPT-4

Mövzuların və sahələrin geniş spektri GPT-4 çox yönlülüyünü nümayiş etdirə bilər. İstər kompüter elmində mürəkkəb suallara cavab vermək, istərsə də fəlsəfi mübahisələrə girmək, GPT-4nin müxtəlif verilənlər bazası üzrə təlimi onu müxtəlif domenlərdən olan istifadəçilərlə əlaqə saxlamaq üçün təchiz edir. Bu çox yönlülük onun geniş mətn resurslarına məruz qalmasından irəli gəlir və onu geniş istifadəçilər üçün dəyərli alət edir.

AI haqqında daha çox oxuyun:

Tags:

Məsuliyyətdən imtina

uyğun olaraq Güvən Layihəsi qaydaları, lütfən nəzərə alın ki, bu səhifədə təqdim olunan məlumat hüquqi, vergi, investisiya, maliyyə və ya hər hansı digər məsləhət forması kimi təfsir edilməməlidir və təfsir edilməməlidir. Yalnız itirə biləcəyiniz şeyə investisiya qoymaq və hər hansı bir şübhəniz varsa, müstəqil maliyyə məsləhətləri axtarmaq vacibdir. Əlavə məlumat üçün biz emitent və ya reklamçı tərəfindən təmin edilən şərtlər və şərtlərə, həmçinin yardım və dəstək səhifələrinə müraciət etməyi təklif edirik. MetaversePost dəqiq, qərəzsiz hesabat verməyə sadiqdir, lakin bazar şərtləri xəbərdarlıq edilmədən dəyişdirilə bilər.

Müəllif haqqında

Damir komanda rəhbəri, məhsul meneceri və redaktordur Metaverse Post, AI/ML, AGI, LLMs, Metaverse və kimi mövzuları əhatə edir Web3- əlaqəli sahələr. Onun məqalələri hər ay bir milyondan çox istifadəçinin kütləsini cəlb edir. O, SEO və rəqəmsal marketinq sahəsində 10 illik təcrübəyə malik mütəxəssis kimi görünür. Damirin adı Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto və digər nəşrlər. O, rəqəmsal köçəri kimi BƏƏ, Türkiyə, Rusiya və MDB arasında səyahət edir. Damir fizika üzrə bakalavr dərəcəsi qazandı və onun fikrincə, bu, ona internetin daim dəyişən mənzərəsində uğur qazanmaq üçün lazım olan tənqidi düşünmə bacarıqlarını verdi.

Ətraflı məqalələr

Damir Yalalov