Iyul 11, 2023

GPT-4ning oshkor qilingan tafsilotlari uning katta miqyosi va ta'sirchan arxitekturasiga oydinlik kiritadi

Nashr qilingan: 11 yil 2023-iyul, 7:19 Yangilangan: 11-yil, 2023-iyul, 7:23

Tahrirlangan va faktlar tekshirilgan: 11-yil 2023-iyul, soat 7:19

Qisqacha

haqida oshkor qilingan ma'lumotlar GPT-4 AI hamjamiyatida hayajonga sabab bo'ldi. O'zidan oldingisidan 10 baravar ko'proq parametrlar bilan, GPT-3, GPT-4 1.8 qatlamda taqsimlangan 120 trillion parametrga ega ekanligi taxmin qilinmoqda.

OpenAI ko'p qatlamli perseptronlar (MLP) uchun 16 milliard parametrga ega 111 ekspertdan foydalangan holda ekspertlar aralashmasi (MoE) modelini amalga oshirdi. Modelning samarali xulosa chiqarish jarayoni har bir oldinga o'tishda 280 milliard parametr va 560 TFLOPdan foydalanadi. OpenAIning samaradorlik va iqtisodiy samaradorlikni maksimal darajada oshirishga sodiqligi. Modelning o'quv ma'lumotlar to'plami 13k dan 8k gacha nozik sozlash bilan 32 trillion tokenni o'z ichiga oladi.

OpenAI parallelizmdan foydalangan GPT-4 100 tomonlama tenzor parallelizmi va 8 tomonlama quvur parallelligidan foydalangan holda A15 GPUlarining to'liq salohiyatidan foydalanish. O‘quv jarayoni keng ko‘lamli va ko‘p resurs talab qilgan bo‘lib, xarajatlar 32 million dollardan 63 million dollargacha bo‘lgan.

GPT-4ning xulosa qilish narxi avvalgisidan taxminan uch baravar yuqori, ammo u ko'p so'rovlarga e'tibor berish, doimiy paketlash va spekulyativ dekodlashni o'z ichiga oladi. Xulosa qilish arxitekturasi bir nechta ma'lumotlar markazlarida taqsimlangan 128 GPU klasterida ishlaydi.

Yaqinda atrofdagi tafsilotlar sizdirildi GPT-4 AI hamjamiyatini hayratda qoldirdi. Noma'lum manbadan olingan ma'lumotlar ushbu yangi modelning hayratlanarli qobiliyatlari va misli ko'rilmagan miqyosi haqida tasavvur beradi. Biz faktlarni ajratamiz va asosiy jihatlarni ochib beramiz GPT-4 haqiqiy texnologik mo''jiza.

GPT-4ning oshkor qilingan tafsilotlari uning katta miqyosi va ta'sirchan arxitekturasiga oydinlik kiritadi — kredit: Metaverse Post (mpost.io)

GPT-4Massiv parametrlar soni

Oqishning eng hayratlanarli vahiylaridan biri bu kattaligidir GPT-4. U hayratlanarli o'lchamga ega bo'lib, avvalgisidan 10 baravar ko'proq parametrlarga ega, GPT-3. Taxminan hayratlanarli umumiy soni taxminan 1.8 ni tashkil qiladi trillion parametrlar ta'sirchan 120 qatlam bo'ylab taqsimlanadi. Ko'lamdagi bu sezilarli o'sish, shubhasiz, hissa qo'shadi GPT-4ning rivojlangan imkoniyatlari va innovatsion yutuqlar uchun potentsial.

Ekspertlar Aralash Modeli (VV)

Istisno ishlashni saqlab qolish bilan birga oqilona xarajatlarni ta'minlash uchun, OpenAI yilda ekspertlar aralashmasi (MoE) modelini joriy qildi GPT-4. Model doirasida har biri ko'p qatlamli perseptronlar (MLP) uchun taxminan 16 milliard parametrdan iborat bo'lgan 111 ekspertdan foydalangan holda, OpenAI resurslarni samarali taqsimlash optimallashtirilgan. Shunisi e'tiborga loyiqki, har bir oldinga o'tish vaqtida faqat ikkita mutaxassis yo'naltiriladi va natijalarni buzmasdan hisoblash talablarini minimallashtiradi. Ushbu innovatsion yondashuv o'zini namoyon qiladi OpenAIning o'z modellarida samaradorlik va iqtisodiy samaradorlikni maksimal darajada oshirish majburiyati.

Juda qiziqarli va batafsil oqish GPT-4 arxitektura, uning ortidagi mantiqiy va uning oqibatlarini mukammal tahlil qilish bilan - tomonidan @dylan522p :https://t.co/eHE7VlGY5V

Toʻlovsiz xulosani bu yerda topishingiz mumkin: https://t.co/rLxw5s9ZDt
- Jan P. Harries (@jphme) Iyul 11, 2023

Soddalashtirilgan MN marshrutlash algoritmi

Model ko'pincha har bir tokenni boshqarish uchun mutaxassislarni tanlash uchun ilg'or marshrutlash algoritmlarini o'rganadi, OpenAIning hozirgi davrdagi yondashuvi GPT-4 Xabarlarga ko'ra, model yanada sodda. AI tomonidan qo'llaniladigan marshrutlash algoritmi nisbatan sodda, ammo shunga qaramay samarali. Diqqat uchun 55 milliardga yaqin umumiy parametrlar modeldagi tegishli mutaxassislarga tokenlarni samarali taqsimlashni osonlashtiradi.

Samarali xulosa

GPT-4ning xulosa chiqarish jarayoni uning samaradorligi va hisoblash qobiliyatini namoyish etadi. Bitta tokenni yaratishga bag'ishlangan har bir oldinga o'tish taxminan 280 milliard parametr va 560 TFLOP (sekundiga suzuvchi nuqta operatsiyalari) dan foydalanadi. Bu ulkan miqyosdan keskin farq qiladi GPT-4, uning 1.8 trillion parametrlari va har bir oldinga o'tish uchun 3,700 TFLOP sof zich modelda. Resurslardan samarali foydalanishni ta'kidlaydi OpenAIning haddan tashqari hisoblash talablarisiz optimal ishlashga erishishga bag'ishlanishi.

Keng qamrovli trening ma'lumotlar to'plami

GPT-4 taxminan 13 trillion tokenni o'z ichiga olgan ulkan ma'lumotlar to'plamida o'qitilgan. Shuni ta'kidlash kerakki, ushbu tokenlar noyob tokenlarni ham, davr raqamlarini hisobga olgan tokenlarni ham o'z ichiga oladi. The o'quv jarayoni matnga asoslangan ma'lumotlar uchun ikkita davrni va kodga asoslangan ma'lumotlar uchun to'rtta davrni o'z ichiga oladi. OpenAI Modelning ishlashini yaxshilash uchun ScaleAI va ichki manbalardan olingan millionlab qator ko'rsatmalarni aniq sozlash ma'lumotlaridan foydalandi.

Treningdan oldingi bosqich GPT-4 8k kontekst uzunligini ishlatgan. Keyinchalik, model nozik sozlashdan o'tdi, natijada 32k versiyasi paydo bo'ldi. Ushbu bosqich treningdan oldingi bosqichga asoslanadi, modelning imkoniyatlarini oshiradi va uni muayyan vazifalarga moslashtiradi.

Parallelizm orqali GPU bilan masshtablash

OpenAI parallelizm kuchidan foydalangan GPT-4 A100 grafik protsessorlarining barcha imkoniyatlaridan foydalanish. Ular NVLink uchun chegara bo'lgani uchun parallel ishlov berishni maksimal darajada oshiradigan 8 tomonlama tenzor parallelizmidan foydalanganlar. Bundan tashqari, unumdorlikni yanada oshirish uchun 15 tomonlama quvur liniyasi parallelligi ishlatilgan. ZeRo Stage 1 kabi maxsus texnikalar qo'llanilgan bo'lsa-da, aniq metodologiya noma'lumligicha qolmoqda.

Ta'lim xarajatlari va foydalanish muammolari

Training GPT-4 keng ko'lamli va resurslarni ko'p talab qiladigan harakat edi. OpenAI 25,000 dan 100 kungacha bo'lgan vaqt oralig'ida taxminan 90 100 ta A32 GPU ajratdi, ular taxminan 36% dan 1% gacha MFU (eng tez-tez ishlatiladi) foydalanish tezligida ishlaydi. O'quv jarayoni ko'plab muvaffaqiyatsizliklarga olib keldi, bu esa nazorat punktlaridan tez-tez qayta boshlashni talab qildi. Agar A100 soatiga XNUMX dollarga baholansa ta'lim xarajatlari faqat bu yugurish uchun taxminan 63 million dollarni tashkil qiladi.

Mutaxassislar aralashmasidagi o'zaro kelishuvlar

Mutaxassislar modelini qo'llash bir nechta kelishuvlarni taqdim etadi. Bo'lgan holatda GPT-4, OpenAI yuqoriroq raqam o‘rniga 16 nafar mutaxassisni tanladi. Ushbu qaror yuqori yo'qotish natijalariga erishish va turli vazifalarni umumlashtirishni ta'minlash o'rtasidagi muvozanatni aks ettiradi. Ko'proq mutaxassislar vazifalarni umumlashtirish va konvergentsiya nuqtai nazaridan qiyinchiliklarga duch kelishlari mumkin. OpenAImashq qilish uchun tanlov mutaxassisda ehtiyotkorlik tanlash, ularning ishonchli va mustahkam ishlashga sodiqligi bilan mos keladi.

Xulosa qilish narxi

175 milliard parametrli Davinci modeli avvalgisiga nisbatan, GPT-4ning xulosa narxi taxminan uch baravar yuqori. Ushbu nomuvofiqlikni bir nechta omillar, jumladan, qo'llab-quvvatlash uchun zarur bo'lgan kattaroq klasterlar bilan bog'lash mumkin GPT-4 va xulosa chiqarishda erishilgan kamroq foydalanish. Hisob-kitoblar 0.0049 ta A1,000 GPU uchun 128 ta token uchun taxminan $100 sent va 0.0021 H1,000 GPU uchun 128 token uchun $100 sentni tashkil qiladi. GPT-4 8k bilan. Ushbu ko'rsatkichlar to'g'ri foydalanish va yuqori partiya o'lchamlarini, xarajatlarni optimallashtirish uchun muhim fikrlarni nazarda tutadi.

Ko'p so'rovli e'tibor

OpenAI ko'p so'rovlar e'tiborini (MQA) ishlatadi, bu sohada keng qo'llaniladigan usul GPT-4 shuningdek. MQA-ni amalga oshirish orqali model faqat bitta boshni talab qiladi, bu kalit-qiymat keshi (KV keshi) uchun zarur bo'lgan xotira hajmini sezilarli darajada kamaytiradi. Ushbu optimallashtirishga qaramasdan, 32k partiya ekanligini ta'kidlash kerak GPT-4 40 GB hajmli A100 grafik protsessorlariga joylasha olmaydi va 8k maksimal partiya hajmi bilan cheklanadi.

Uzluksiz yig'ish

Kechikish va xulosa chiqarish xarajatlari o'rtasidagi muvozanatni saqlash uchun, OpenAI oʻzgaruvchan partiya oʻlchamlarini ham, uzluksiz paketlashni ham oʻz ichiga oladi GPT-4. Ushbu moslashuvchan yondashuv moslashuvchan va samarali ishlov berish, resurslardan foydalanishni optimallashtirish va hisoblash uchun qo'shimcha xarajatlarni kamaytirish imkonini beradi.

GPT-4 matn kodlovchisi bilan bir qatorda ikkalasi o'rtasidagi o'zaro e'tiborni aks ettiruvchi alohida ko'rish kodlovchisini taqdim etadi. Flamingoni eslatuvchi ushbu arxitektura allaqachon ta'sirchan 1.8 trillion parametrlar soniga qo'shimcha parametrlarni qo'shadi. GPT-4. Ko'rish modeli faqat matndan oldingi trening bosqichidan so'ng taxminan 2 trillion token yordamida alohida sozlashdan o'tadi. Bu ko'rish qobiliyati kuch beradi avtonom agentlar veb-sahifalarni o'qish, tasvirlarni transkripsiya qilish va video mazmunini sharhlash - multimedia ma'lumotlari asrida bebaho boylik.

Spekulyativ dekodlash

ning qiziqarli tomoni GPT-4ning xulosa strategiyasi spekulyativ dekodlashdan foydalanish mumkin. Ushbu yondashuv kichikroq, tezroq foydalanishni o'z ichiga oladi model oldindan bir nechta tokenlar uchun bashoratlarni yaratish. Ushbu bashorat qilingan tokenlar keyinchalik bitta partiya sifatida kattaroq "oracle" modeliga kiritiladi. Agar kichikroq bo'lsa modelning bashoratlari kattaroq modelning kelishuviga muvofiq, bir nechta tokenlarni birgalikda dekodlash mumkin. Biroq, agar kattaroq model qoralama model tomonidan bashorat qilingan tokenlarni rad etsa, partiyaning qolgan qismi bekor qilinadi va xulosa faqat kattaroq model bilan davom etadi. Ushbu yondashuv past ehtimollik ketma-ketliklarini potentsial ravishda qabul qilgan holda samarali dekodlash imkonini beradi. Ta'kidlash joizki, bu taxmin hozircha tasdiqlanmagan.

Xulosa arxitekturasi

GPT-4ning xulosa chiqarish jarayoni turli joylarda bir nechta ma'lumot markazlarida taqsimlangan 128 GPU klasterida ishlaydi. Ushbu infratuzilma hisoblash samaradorligini oshirish uchun 8 tomonlama tenzor parallelizmi va 16 tomonlama quvur liniyasi parallelizmidan foydalanadi. 8 ta GPUdan iborat har bir tugun taxminan 130 milliard parametrni o'z ichiga oladi. 120 qatlamli model o'lchami bilan, GPT-4 15 xil tugunga sig'ishi mumkin, ehtimol, o'rnatishlarni hisoblash zarurati tufayli birinchi tugunda kamroq qatlamlar bilan. Ushbu me'moriy tanlovlar yuqori samarali xulosa chiqarishga yordam beradi, namoyish etadi OpenAIning hisoblash samaradorligi chegaralarini oshirish majburiyati.

Ma'lumotlar to'plami hajmi va tarkibi

GPT-4 ta'sirchan 13 trillion tokenlar bo'yicha o'qitildi va uni o'rganish uchun keng matnlar korpusi bilan ta'minladi. Biroq, barcha tokenlarni mashg'ulot paytida ishlatiladigan ma'lum ma'lumotlar to'plami bilan hisobga olish mumkin emas. CommonCrawl va RefinedWeb kabi ma'lumotlar to'plamlari muhim qismini hissa qo'shadi ta'lim ma'lumotlari, ko'pincha "maxfiy" ma'lumotlar deb ataladigan, hisobga olinmagan tokenlarning bir qismi qolmoqda.

Mish-mishlar va taxminlar

Ushbu oshkor etilmagan ma'lumotlarning kelib chiqishi haqida taxminlar paydo bo'ldi. Bir mish-mishlarga ko'ra, u Twitter, Reddit va YouTube kabi mashhur platformalardagi kontentni o'z ichiga oladi va foydalanuvchi tomonidan yaratilgan kontentning shakllanishiga potentsial ta'sirini ta'kidlaydi. GPT-4ning bilim bazasi. Bundan tashqari, millionlab kitoblar ombori bo'lgan LibGen va ko'plab ilmiy maqolalarga kirishni ta'minlaydigan Sci-Hub platformasi kabi keng qamrovli to'plamlarni kiritish haqida taxminlar mavjud. Bu tushuncha GPT-4 to'liq GitHub bo'yicha o'qitildi, shuningdek, AI ishqibozlari orasida tarqaldi.

Muxbirning fikri

Mish-mishlar ko'p bo'lsa-da, bu mish-mishlarga ehtiyotkorlik bilan yondashish kerak. ning treningi GPT-4 kollej darsliklaridan tashkil topgan maxsus ma'lumotlar to'plamidan katta foyda olgan bo'lishi mumkin. Kurslar va fanlarning keng doirasini o'z ichiga olgan ushbu ma'lumotlar to'plamini qo'lda mashaqqatli yig'ish mumkin edi. Kollej darsliklari til modelini o'rgatish uchun muvaffaqiyatli ishlatilishi mumkin bo'lgan va matnli fayllarga osongina o'zgartiriladigan tuzilgan va keng qamrovli bilimlar bazasini taqdim etadi. Bunday ma'lumotlar to'plamining kiritilishi shunday taassurot qoldirishi mumkin GPT-4 turli sohalarda bilimga ega.

The Fascination with GPT-4ning bilimlari

ning qiziqarli jihati GPT-4ning treningi uning muayyan kitoblar bilan tanishish va hatto Project Euler kabi platformalardan noyob identifikatorlarni eslab qolish qobiliyatidir. Tadqiqotchilar kitoblarning yodlangan qismlarini ajratib olishga harakat qilishdi GPT-4 uning ta'limi haqida tushunchaga ega bo'lish, modelning ichki ishlashiga qiziqishni yanada kuchaytiradi. Ushbu kashfiyotlar uning hayratlanarli qobiliyatini ta'kidlaydi GPT-4 axborotni saqlash va keng ko'lamli til modellarining ta'sirchan imkoniyatlarini ta'kidlash.

ning ko'p qirraliligi GPT-4

Mavzular va sohalarning keng spektri GPT-4 o'zining ko'p qirraliligini namoyish qilish bilan shug'ullanishi mumkin. Kompyuter fanidagi murakkab savollarga javob berish yoki falsafiy bahslarga kirishish, GPT-4ning turli xil ma'lumotlar to'plami bo'yicha treningi uni turli domenlardagi foydalanuvchilar bilan muloqot qilish uchun jihozlaydi. Ushbu ko'p qirralilik uning keng ko'lamli matn resurslariga ta'sir qilishidan kelib chiqadi va bu uni keng foydalanuvchilar uchun qimmatli vositaga aylantiradi.

AI haqida ko'proq o'qing:

Tags:

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.

Boshqa maqolalar

Damir Yalolov

Hot Stories

NuLink Bybitda ishga tushadi Web3 IDO platformasi. Obuna bosqichi 13-maygacha uzaytiriladi

by Alisa Devidson

, 09 2024 mumkin

UXLINK va Binance yangi kampaniyada hamkorlik qilib, foydalanuvchilarga 20M UXUY ball va taklif etadi Airdrop mukofotlar

by Alisa Devidson

, 09 2024 mumkin

Side Protocol Incentivized Testnet-ni ishga tushiradi va Insider Point tizimini joriy qiladi, bu esa foydalanuvchilarga SIDE ball to'plash imkonini beradi.

by Alisa Devidson

, 09 2024 mumkin

Web3 va 2024-yil may oyida Kripto voqealari: Blokcheyn va yangi texnologiyalar va rivojlanayotgan tendentsiyalarni o‘rganish. DeFi

by Viktoriya Palchik

, 09 2024 mumkin

So'nggi yangiliklar

NuLink Bybitda ishga tushadi Web3 IDO platformasi. Obuna bosqichi 13-maygacha uzaytiriladi

by Alisa Devidson

, 09 2024 mumkin

UXLINK va Binance yangi kampaniyada hamkorlik qilib, foydalanuvchilarga 20M UXUY ball va taklif etadi Airdrop mukofotlar

by Alisa Devidson

, 09 2024 mumkin

Side Protocol Incentivized Testnet-ni ishga tushiradi va Insider Point tizimini joriy qiladi, bu esa foydalanuvchilarga SIDE ball to'plash imkonini beradi.

by Alisa Devidson

, 09 2024 mumkin

Web3 va 2024-yil may oyida Kripto voqealari: Blokcheyn va yangi texnologiyalar va rivojlanayotgan tendentsiyalarni o‘rganish. DeFi

by Viktoriya Palchik

, 09 2024 mumkin

Institutsional ishtaha o'zgaruvchanlik sharoitida Bitcoin ETFlariga nisbatan o'sib bormoqda

13F arizalari orqali oshkor qilish Bitcoin ETFs bilan shug'ullanadigan taniqli institutsional investorlarni ochib beradi, bu esa tobora ortib borayotgan qabul qilinishini ta'kidlaydi ...

Ko'proq ma'lumot oling