Julai 11, 2023

GPT-4Butiran Bocor Menjelaskan Skala Besar dan Seni Binanya yang Mengagumkan

Diterbitkan: 11 Julai 2023 pada 7:19 pagi Dikemas kini: 11 Julai 2023 pada 7:23 pagi

Disunting dan disemak fakta: 11 Julai 2023 jam 7:19 pagi

Secara ringkas

Maklumat yang bocor mengenai GPT-4 telah mencetuskan keterujaan dalam kalangan komuniti AI. Dengan lebih 10 kali ganda parameter pendahulunya, GPT-3, GPT-4 dianggarkan mempunyai 1.8 trilion parameter yang diedarkan di 120 lapisan.

OpenAI melaksanakan model campuran pakar (MoE), menggunakan 16 pakar dengan 111 bilion parameter untuk perceptron berbilang lapisan (MLP). Proses inferens yang cekap model menggunakan 280 bilion parameter dan 560 TFLOP setiap hantaran hadapan, menunjukkan OpenAIkomitmen untuk memaksimumkan kecekapan dan keberkesanan kos. Set data latihan model termasuk 13 trilion token, dengan penalaan halus daripada 8k hingga 32k.

OpenAI digunakan selari dalam GPT-4 untuk memanfaatkan potensi penuh GPU A100 mereka, menggunakan keselarian tensor 8-hala dan keselarian saluran paip 15-hala. Proses latihan adalah meluas dan intensif sumber, dengan kos antara $32 juta hingga $63 juta.

GPT-4Kos inferens adalah kira-kira tiga kali lebih tinggi daripada pendahulunya, tetapi ia juga menggabungkan perhatian berbilang pertanyaan, kumpulan berterusan dan penyahkodan spekulatif. Seni bina inferens beroperasi pada kelompok 128 GPU, diedarkan merentasi berbilang pusat data.

Kebocoran butiran terkini mengenainya GPT-4 telah menghantar gelombang kejutan melalui komuniti AI. Maklumat yang dibocorkan, yang diperoleh daripada sumber yang tidak didedahkan, memberikan gambaran tentang keupayaan yang mengagumkan dan skala yang belum pernah berlaku sebelum ini bagi model terobosan ini. Kami akan memecahkan fakta dan mendedahkan aspek utama yang membuat GPT-4 keajaiban teknologi yang sebenar.

GPT-4Butiran Bocor Menjelaskan Skala Besar dan Seni Binanya yang Mengagumkan — Kredit: Metaverse Post (mpost.io)

GPT-4Kiraan Parameter Besar

Salah satu pendedahan yang paling menarik daripada kebocoran itu ialah magnitud semata-mata GPT-4. Ia mempunyai saiz yang menakjubkan, dengan lebih daripada 10 kali ganda parameter pendahulunya, GPT-3. Ia dianggarkan mempunyai jumlah yang mengejutkan kira-kira 1.8 trilion parameter diedarkan merentasi 120 lapisan yang mengagumkan. Peningkatan besar dalam skala ini sudah pasti menyumbang kepada GPT-4keupayaan yang dipertingkatkan dan potensi untuk kemajuan terobosan.

Campuran Model Pakar (KPM)

Untuk memastikan kos yang berpatutan sambil mengekalkan prestasi yang luar biasa, OpenAI melaksanakan model campuran pakar (KPM) dalam GPT-4. Dengan menggunakan 16 pakar dalam model, setiap satu terdiri daripada sekitar 111 bilion parameter untuk perceptron berbilang lapisan (MLP), OpenAI peruntukan sumber yang dioptimumkan dengan berkesan. Terutama, semasa setiap hantaran hadapan, hanya dua pakar dihalakan, meminimumkan keperluan pengiraan tanpa menjejaskan keputusan. Pendekatan inovatif ini menunjukkan OpenAIKomitmen untuk memaksimumkan kecekapan dan keberkesanan kos dalam model mereka.

Kebocoran yang sangat menarik dan terperinci GPT-4 seni bina, dengan analisis yang sangat baik tentang alasan di sebaliknya dan implikasinya – oleh @dylan522p :https://t.co/eHE7VlGY5V

Ringkasan tidak berdinding berbayar boleh didapati di sini: https://t.co/rLxw5s9ZDt
— Jan P. Harris (@jphme) Julai 11, 2023

Algoritma Penghalaan KPM yang dipermudahkan

Walaupun model sering meneroka algoritma penghalaan lanjutan untuk memilih pakar untuk mengendalikan setiap token, OpenAIpendekatan dalam arus GPT-4 model dilaporkan lebih mudah. Algoritma penghalaan yang digunakan oleh AI didakwa agak mudah, tetapi berkesan. Kira-kira 55 bilion parameter dikongsi untuk perhatian memudahkan pengedaran token yang cekap kepada pakar yang sesuai dalam model.

Inferens yang cekap

GPT-4proses inferens mempamerkan kecekapan dan kehebatan pengiraannya. Setiap hantaran hadapan, khusus untuk menjana satu token, menggunakan kira-kira 280 bilion parameter dan 560 TFLOP (operasi terapung terapung sesaat). Ini sangat berbeza dengan skala besar GPT-4, dengan 1.8 trilion parameter dan 3,700 TFLOP setiap hantaran hadapan dalam model padat semata-mata. Sorotan penggunaan sumber yang cekap OpenAIdedikasi untuk mencapai prestasi optimum tanpa keperluan pengiraan yang berlebihan.

Set Data Latihan yang Luas

GPT-4 telah dilatih mengenai set data besar yang terdiri daripada kira-kira 13 trilion token. Adalah penting untuk ambil perhatian bahawa token ini termasuk kedua-dua token unik dan token yang merangkumi nombor zaman. The proses latihan termasuk dua zaman untuk data berasaskan teks dan empat zaman untuk data berasaskan kod. OpenAI memanfaatkan berjuta-juta baris data penalaan halus arahan yang diperoleh daripada ScaleAI dan secara dalaman untuk memperhalusi prestasi model.

Fasa pra-latihan bagi GPT-4 menggunakan panjang konteks 8k. Selepas itu, model itu menjalani penalaan halus, menghasilkan versi 32k. Perkembangan ini dibina berdasarkan fasa pra-latihan, mempertingkatkan keupayaan model dan menyesuaikannya dengan tugasan tertentu.

Penskalaan dengan GPU melalui Paralelisme

OpenAI memanfaatkan kuasa paralelisme dalam GPT-4 untuk memanfaatkan potensi penuh GPU A100 mereka. Mereka menggunakan keselarian tensor 8-hala, yang memaksimumkan pemprosesan selari, kerana ia adalah had untuk NVLink. Selain itu, paralelisme saluran paip 15 hala telah digunakan untuk meningkatkan lagi prestasi. Walaupun teknik khusus seperti ZeRo Peringkat 1 mungkin digunakan, metodologi yang tepat masih tidak didedahkan.

Kos Latihan dan Cabaran Penggunaan

Latihan GPT-4 adalah satu usaha yang meluas dan intensif sumber. OpenAI memperuntukkan kira-kira 25,000 GPU A100 dalam tempoh 90 hingga 100 hari, beroperasi pada kadar penggunaan kira-kira 32% hingga 36% MFU (paling kerap digunakan). Proses latihan mengalami banyak kegagalan, yang memerlukan dimulakan semula secara kerap dari pusat pemeriksaan. Jika dianggarkan pada $1 setiap A100 jam, yang kos latihan untuk larian ini sahaja akan berjumlah kira-kira $63 juta.

Tukar ganti dalam Campuran Pakar

Melaksanakan gabungan model pakar memberikan beberapa pertukaran. Dalam kes GPT-4, OpenAI memilih 16 pakar dan bukannya bilangan yang lebih tinggi. Keputusan ini mencerminkan keseimbangan antara mencapai keputusan kerugian yang unggul dan memastikan kebolehgeneralisasian merentasi pelbagai tugas. Lebih ramai pakar boleh mengemukakan cabaran dari segi generalisasi dan penumpuan tugas. OpenAIpilihan untuk bersenam berhati-hati dalam pakar pemilihan sejajar dengan komitmen mereka terhadap prestasi yang boleh dipercayai dan teguh.

Kos Inferens

Berbanding dengan pendahulunya, model Davinci parameter 175 bilion, GPT-4Kos inferens adalah lebih kurang tiga kali ganda lebih tinggi. Percanggahan ini boleh dikaitkan dengan beberapa faktor, termasuk kelompok yang lebih besar yang diperlukan untuk menyokong GPT-4 dan penggunaan yang lebih rendah yang dicapai semasa inferens. Anggaran menunjukkan anggaran kos sebanyak $0.0049 sen setiap 1,000 token untuk 128 A100 GPU dan $0.0021 sen setiap 1,000 token untuk 128 H100 GPU apabila membuat kesimpulan GPT-4 dengan 8k. Angka-angka ini menganggap penggunaan yang baik dan saiz kelompok yang tinggi, pertimbangan penting untuk pengoptimuman kos.

Perhatian Berbilang Pertanyaan

OpenAI memanfaatkan perhatian berbilang pertanyaan (MQA), teknik yang digunakan secara meluas dalam bidang, dalam GPT-4 juga. Dengan melaksanakan MQA, model hanya memerlukan satu kepala, dengan ketara mengurangkan kapasiti memori yang diperlukan untuk cache nilai kunci (cache KV). Walaupun pengoptimuman ini, perlu diperhatikan bahawa kumpulan 32k GPT-4 tidak boleh dimuatkan pada GPU A40 100GB, dan 8k dikekang oleh saiz kelompok maksimum.

Batching Berterusan

Untuk mencapai keseimbangan antara kos kependaman dan inferens, OpenAI menggabungkan kedua-dua saiz kelompok berubah-ubah dan kelompok berterusan masuk GPT-4. Pendekatan penyesuaian ini membolehkan pemprosesan yang fleksibel dan cekap, mengoptimumkan penggunaan sumber dan mengurangkan overhed pengiraan.

GPT-4 memperkenalkan pengekod penglihatan yang berasingan bersama pengekod teks, yang menampilkan perhatian silang antara kedua-duanya. Seni bina ini, mengingatkan Flamingo, menambah parameter tambahan kepada kiraan parameter 1.8 trilion yang sudah mengagumkan GPT-4. Model visi menjalani penalaan halus berasingan menggunakan kira-kira 2 trilion token berikutan fasa pra-latihan teks sahaja. Keupayaan penglihatan ini memperkasakan ejen autonomi untuk membaca halaman web, menyalin imej dan mentafsir kandungan video—aset yang tidak ternilai dalam era data multimedia.

Penyahkodan Spekulatif

Aspek menarik dari GPT-4Strategi inferens ialah kemungkinan penggunaan penyahkodan spekulatif. Pendekatan ini melibatkan penggunaan yang lebih kecil, lebih cepat model untuk menjana ramalan untuk berbilang token terlebih dahulu. Token yang diramalkan ini kemudiannya dimasukkan ke dalam model "oracle" yang lebih besar sebagai satu kelompok. Jika lebih kecil ramalan model selaras dengan perjanjian model yang lebih besar, beberapa token boleh dinyahkod bersama. Walau bagaimanapun, jika model yang lebih besar menolak token yang diramalkan oleh model draf, kumpulan yang selebihnya akan dibuang dan inferens diteruskan semata-mata dengan model yang lebih besar. Pendekatan ini membolehkan penyahkodan yang cekap sambil berpotensi menerima urutan kebarangkalian yang lebih rendah. Perlu diingat bahawa spekulasi ini masih belum dapat disahkan pada masa ini.

Seni Bina Inferens

GPT-4Proses inferens beroperasi pada kelompok 128 GPU, diedarkan merentasi berbilang pusat data di lokasi yang berbeza. Infrastruktur ini menggunakan selari tensor 8-hala dan paralelisme saluran paip 16-hala untuk memaksimumkan kecekapan pengiraan. Setiap nod, yang terdiri daripada 8 GPU, memuatkan kira-kira 130 bilion parameter. Dengan saiz model 120 lapisan, GPT-4 boleh dimuatkan dalam 15 nod yang berbeza, mungkin dengan lapisan yang lebih sedikit dalam nod pertama kerana keperluan untuk mengira benam. Pilihan seni bina ini memudahkan inferens berprestasi tinggi, menunjukkan OpenAIKomitmen untuk menolak sempadan kecekapan pengiraan.

Saiz dan Komposisi Set Data

GPT-4 telah dilatih dengan 13 trilion token yang mengagumkan, menyediakannya dengan korpus teks yang luas untuk dipelajari. Walau bagaimanapun, tidak semua token boleh diambil kira oleh set data yang diketahui yang digunakan semasa latihan. Walaupun set data seperti CommonCrawl dan RefinedWeb menyumbang sebahagian besar daripada data latihan, masih terdapat sebahagian daripada token yang tidak diketahui, sering dirujuk sebagai data "rahsia".

Khabar angin dan Spekulasi

Spekulasi telah timbul mengenai asal usul data yang tidak didedahkan ini. Satu khabar angin mencadangkan bahawa ia termasuk kandungan daripada platform popular seperti Twitter, Reddit, dan YouTube, yang menonjolkan potensi pengaruh kandungan yang dijana pengguna dalam membentuk GPT-4pangkalan pengetahuan. Selain itu, terdapat andaian mengenai kemasukan koleksi yang luas seperti LibGen, repositori berjuta-juta buku, dan Sci-Hub, platform yang menyediakan akses kepada banyak kertas saintifik. Tanggapan bahawa GPT-4 telah dilatih secara keseluruhan GitHub juga telah diedarkan di kalangan peminat AI.

Pendapat Wartawan

Walaupun terdapat banyak khabar angin, adalah penting untuk mendekati khabar angin ini dengan berhati-hati. Latihan daripada GPT-4 mungkin telah mendapat banyak manfaat daripada set data khas yang terdiri daripada buku teks kolej. Set data ini, yang merangkumi pelbagai kursus dan mata pelajaran, mungkin telah disusun dengan teliti dengan tangan. Buku teks kolej menyediakan pangkalan pengetahuan yang berstruktur dan komprehensif yang boleh berjaya digunakan untuk melatih model bahasa dan mudah ditukar kepada fail teks. Kemasukan set data sedemikian mungkin memberi gambaran bahawa GPT-4 berpengetahuan dalam pelbagai bidang.

Ketertarikan dengan GPT-4Pengetahuan

Satu aspek yang menarik GPT-4Latihan ialah keupayaannya untuk menunjukkan kebiasaan dengan buku tertentu dan juga mengingati pengecam unik daripada platform seperti Project Euler. Penyelidik telah cuba mengekstrak bahagian buku yang dihafal daripada GPT-4 untuk mendapatkan pandangan tentang latihannya, menyemarakkan lagi rasa ingin tahu tentang kerja dalaman model. Penemuan ini menyerlahkan keupayaan menakjubkan GPT-4 untuk mengekalkan maklumat dan menggariskan keupayaan mengagumkan model bahasa berskala besar.

Kepelbagaian GPT-4

Spektrum luas topik dan bidang yang GPT-4 nampaknya boleh terlibat dengan mempamerkan serba bolehnya. Sama ada menjawab soalan kompleks dalam sains komputer atau mendalami perbahasan falsafah, GPT-4Latihan tentang set data yang pelbagai melengkapkannya untuk melibatkan diri dengan pengguna dari pelbagai domain. Fleksibiliti ini berpunca daripada pendedahannya kepada pelbagai sumber teks, menjadikannya alat yang berharga untuk pelbagai pengguna.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov