GPT-4Detail yang Bocor Menjelaskan Skala Besar dan Arsitektur yang Mengesankan
Singkatnya
Bocoran informasi tentang GPT-4 telah memicu kegembiraan di kalangan komunitas AI. Dengan lebih dari 10 kali parameter pendahulunya, GPT-3, GPT-4 diperkirakan memiliki 1.8 triliun parameter yang tersebar di 120 lapisan.
OpenAI menerapkan model mix of expert (MoE), memanfaatkan 16 pakar dengan 111 miliar parameter untuk multi-layer perceptrons (MLP). Proses inferensi model yang efisien menggunakan 280 miliar parameter dan 560 TFLOP per lintasan maju, menunjukkan OpenAIkomitmen untuk memaksimalkan efisiensi dan efektivitas biaya. Dataset pelatihan model mencakup 13 triliun token, dengan penyempurnaan dari 8k menjadi 32k.
OpenAI memanfaatkan paralelisme di GPT-4 untuk memanfaatkan potensi penuh GPU A100 mereka, menggunakan paralelisme tensor 8 arah dan paralelisme pipeline 15 arah. Proses pelatihannya ekstensif dan memerlukan banyak sumber daya, dengan biaya berkisar antara $32 juta hingga $63 juta.
GPT-4Biaya inferensinya kira-kira tiga kali lebih tinggi dibandingkan pendahulunya, tetapi juga mencakup perhatian multi-kueri, pengelompokan berkelanjutan, dan penguraian kode spekulatif. Arsitektur inferensi beroperasi pada cluster yang terdiri dari 128 GPU, didistribusikan di beberapa pusat data.
Bocoran detail seputar baru-baru ini GPT-4 telah mengirimkan gelombang kejutan melalui komunitas AI. Informasi yang bocor, yang diperoleh dari sumber yang dirahasiakan, memberikan gambaran sekilas tentang kemampuan menakjubkan dan skala yang belum pernah terjadi sebelumnya dari model inovatif ini. Kami akan menguraikan fakta dan mengungkap aspek-aspek utama yang mendasarinya GPT-4 sebuah keajaiban teknologi yang sesungguhnya.
- GPT-4Jumlah Parameter Besar
- Model Campuran Pakar (MoE)
- Algoritma Perutean MoE Sederhana
- Inferensi Efisien
- Kumpulan Data Pelatihan Ekstensif
- Penyempurnaan melalui Penyempurnaan dari 8K ke 32K
- Penskalaan dengan GPU melalui Paralelisme
- Tantangan Biaya Pelatihan dan Pemanfaatan
- Pengorbanan dalam Campuran Para Ahli
- Biaya Inferensi
- Perhatian Multi-Permintaan
- Pengelompokan terus menerus
- Visi Multi-Modal
- Penguraian Spekulatif
- Arsitektur Inferensi
- Ukuran dan Komposisi Dataset
- Rumor dan Spekulasi
- Opini Wartawan
- Ketertarikan dengan GPT-4Pengetahuan
- Fleksibilitas dari GPT-4
GPT-4Jumlah Parameter Besar
Salah satu pengungkapan yang paling mencolok dari kebocoran ini adalah besarnya dampak yang ditimbulkannya GPT-4. Ia memiliki ukuran yang luar biasa, dengan parameter lebih dari 10 kali lipat dari pendahulunya, GPT-3. Diperkirakan memiliki total yang mengejutkan sekitar 1.8 triliun parameter didistribusikan di 120 lapisan yang mengesankan. Peningkatan skala yang substansial ini tidak diragukan lagi berkontribusi pada GPT-4kemampuan yang ditingkatkan dan potensi untuk terobosan kemajuan.
Model Campuran Pakar (MoE)
Untuk memastikan biaya yang masuk akal sambil mempertahankan kinerja yang luar biasa, OpenAI menerapkan model campuran ahli (MoE) di GPT-4. Dengan memanfaatkan 16 ahli dalam model, masing-masing terdiri dari sekitar 111 miliar parameter untuk multi-layer perceptron (MLP), OpenAI alokasi sumber daya yang dioptimalkan secara efektif. Khususnya, selama setiap lintasan maju, hanya dua pakar yang diarahkan, meminimalkan kebutuhan komputasi tanpa mengorbankan hasil. Pendekatan inovatif ini menunjukkan OpenAIkomitmen untuk memaksimalkan efisiensi dan efektivitas biaya dalam model mereka.
Bocorannya sangat menarik dan detail GPT-4 arsitektur, dengan analisis yang sangat baik tentang alasan di baliknya dan implikasinya – oleh @dylan522p :https://t.co/eHE7VlGY5V
— Jan P.Harries (@jphme) Juli 11, 2023
Ringkasan non-paywalled dapat ditemukan di sini: https://t.co/rLxw5s9ZDt
Algoritma Perutean MoE Sederhana
Sementara model sering mengeksplorasi algoritme perutean lanjutan untuk memilih pakar untuk menangani setiap token, OpenAIpendekatan saat ini GPT-4 model ini dilaporkan lebih lugas. Algoritme perutean yang digunakan oleh AI diduga relatif sederhana, namun tetap efektif. Sekitar 55 miliar parameter bersama untuk diperhatikan memfasilitasi distribusi token yang efisien kepada pakar yang sesuai dalam model.
Inferensi Efisien
GPT-4Proses inferensi menunjukkan efisiensi dan kehebatan komputasinya. Setiap forward pass, yang didedikasikan untuk menghasilkan satu token, menggunakan sekitar 280 miliar parameter dan 560 TFLOP (tera floating-point operasi per detik). Hal ini sangat kontras dengan skala yang sangat besar GPT-4, dengan 1.8 triliun parameter dan 3,700 TFLOP per forward pass dalam model yang murni padat. Sorotan pada penggunaan sumber daya yang efisien OpenAIdedikasi untuk mencapai kinerja optimal tanpa persyaratan komputasi yang berlebihan.
Kumpulan Data Pelatihan Ekstensif
GPT-4 telah dilatih pada kumpulan data kolosal yang terdiri dari sekitar 13 triliun token. Penting untuk dicatat bahwa token ini mencakup token unik dan token yang memperhitungkan nomor zaman. Itu proses pelatihan termasuk dua zaman untuk data berbasis teks dan empat zaman untuk data berbasis kode. OpenAI memanfaatkan jutaan baris data fine-tuning instruksi yang bersumber dari ScaleAI dan secara internal untuk menyempurnakan kinerja model.
Penyempurnaan melalui Penyempurnaan dari 8K ke 32K
Fase pra-pelatihan GPT-4 menggunakan panjang konteks 8k. Selanjutnya, model tersebut mengalami penyempurnaan, menghasilkan versi 32k. Kemajuan ini dibangun berdasarkan fase pra-pelatihan, meningkatkan kemampuan model dan menyesuaikannya dengan tugas-tugas tertentu.
Penskalaan dengan GPU melalui Paralelisme
OpenAI memanfaatkan kekuatan paralelisme dalam GPT-4 untuk memanfaatkan potensi penuh GPU A100 mereka. Mereka menggunakan paralelisme tensor 8 arah, yang memaksimalkan pemrosesan paralel, karena ini adalah batas untuk NVLink. Selain itu, paralelisme saluran pipa 15 arah digunakan untuk lebih meningkatkan kinerja. Meskipun teknik spesifik seperti ZeRo Tahap 1 mungkin digunakan, metodologi pastinya masih dirahasiakan.
Tantangan Biaya Pelatihan dan Pemanfaatan
Pelatihan GPT-4 merupakan upaya yang ekstensif dan intensif sumber daya. OpenAI mengalokasikan sekitar 25,000 GPU A100 selama periode 90 hingga 100 hari, beroperasi pada tingkat pemanfaatan sekitar 32% hingga 36% MFU (paling sering digunakan). Proses pelatihan mengalami banyak kegagalan, sehingga harus sering dimulai ulang dari pos pemeriksaan. Jika diperkirakan $1 per A100 jam, biaya pelatihan untuk menjalankan ini saja akan berjumlah sekitar $63 juta.
Pengorbanan dalam Campuran Para Ahli
Penerapan model campuran pakar menimbulkan beberapa trade-off. Dalam kasus GPT-4, OpenAI memilih 16 ahli, bukan jumlah yang lebih tinggi. Keputusan ini mencerminkan keseimbangan antara mencapai hasil kerugian yang unggul dan memastikan generalisasi di berbagai tugas. Lebih banyak ahli dapat menghadirkan tantangan dalam hal generalisasi tugas dan konvergensi. OpenAIpilihan untuk berolahraga hati-hati di ahli seleksi sejalan dengan komitmen mereka terhadap kinerja yang andal dan kuat.
Biaya Inferensi
Dibandingkan pendahulunya, model Davinci dengan 175 miliar parameter, GPT-4biaya inferensi kira-kira tiga kali lebih tinggi. Perbedaan ini dapat disebabkan oleh beberapa faktor, termasuk diperlukannya klaster yang lebih besar untuk mendukungnya GPT-4 dan pemanfaatan yang lebih rendah yang dicapai selama inferensi. Estimasi menunjukkan perkiraan biaya sebesar $0.0049 sen per 1,000 token untuk 128 GPU A100, dan $0.0021 sen per 1,000 token untuk 128 GPU H100 saat menyimpulkan GPT-4 dengan 8k. Angka-angka ini mengasumsikan pemanfaatan yang layak dan ukuran batch yang tinggi, yang merupakan pertimbangan penting untuk optimalisasi biaya.
Perhatian Multi-Permintaan
OpenAI memanfaatkan perhatian multi-kueri (MQA), sebuah teknik yang banyak digunakan di lapangan, di GPT-4 demikian juga. Dengan menerapkan MQA, model hanya memerlukan satu head, sehingga secara signifikan mengurangi kapasitas memori yang diperlukan untuk cache nilai kunci (cache KV). Meskipun ada optimasi ini, perlu dicatat bahwa batch 32k GPT-4 tidak dapat diakomodasi pada GPU A40 100GB, dan 8k dibatasi oleh ukuran batch maksimum.
Pengelompokan terus menerus
Untuk mencapai keseimbangan antara latensi dan biaya inferensi, OpenAI menggabungkan ukuran batch variabel dan batching berkelanjutan GPT-4. Pendekatan adaptif ini memungkinkan pemrosesan yang fleksibel dan efisien, mengoptimalkan pemanfaatan sumber daya, dan mengurangi overhead komputasi.
Visi Multi-Modal
GPT-4 memperkenalkan encoder visi terpisah di samping encoder teks, yang menampilkan perhatian silang di antara keduanya. Arsitektur ini, mengingatkan pada Flamingo, menambahkan parameter tambahan ke jumlah parameter yang sudah mengesankan yaitu 1.8 triliun GPT-4. Model visi mengalami penyesuaian terpisah menggunakan sekitar 2 triliun token setelah fase pra-pelatihan hanya teks. Kemampuan visi ini memberdayakan agen otonom untuk membaca halaman web, menyalin gambar, dan menafsirkan konten video—sebuah aset yang sangat berharga di era data multimedia.
Penguraian Spekulatif
Aspek yang menarik dari GPT-4Strategi inferensinya adalah kemungkinan penggunaan decoding spekulatif. Pendekatan ini melibatkan penggunaan yang lebih kecil, lebih cepat model untuk menghasilkan prediksi untuk beberapa token terlebih dahulu. Token yang diprediksi ini kemudian dimasukkan ke dalam model "oracle" yang lebih besar sebagai satu batch. Jika lebih kecil prediksi model selaras dengan persetujuan model yang lebih besar, beberapa token dapat didekodekan bersama. Namun, jika model yang lebih besar menolak token yang diprediksi oleh model draf, kumpulan lainnya akan dibuang, dan inferensi hanya berlanjut dengan model yang lebih besar. Pendekatan ini memungkinkan decoding yang efisien sambil berpotensi menerima urutan probabilitas yang lebih rendah. Perlu dicatat bahwa spekulasi ini masih belum diverifikasi saat ini.
Arsitektur Inferensi
GPT-4Proses inferensi beroperasi pada cluster yang terdiri dari 128 GPU, didistribusikan di beberapa pusat data di lokasi berbeda. Infrastruktur ini menggunakan paralelisme tensor 8 arah dan paralelisme pipeline 16 arah untuk memaksimalkan efisiensi komputasi. Setiap node, terdiri dari 8 GPU, menampung sekitar 130 miliar parameter. Dengan ukuran model 120 lapisan, GPT-4 dapat ditampung dalam 15 node berbeda, mungkin dengan lebih sedikit lapisan di node pertama karena kebutuhan untuk menghitung penyematan. Pilihan arsitektural ini memfasilitasi inferensi berkinerja tinggi, demonstrasi OpenAIkomitmen untuk mendorong batas-batas efisiensi komputasi.
Ukuran dan Komposisi Dataset
GPT-4 dilatih dengan 13 triliun token yang mengesankan, menyediakan kumpulan teks yang luas untuk dipelajari. Namun, tidak semua token dapat diperhitungkan berdasarkan kumpulan data yang diketahui dan digunakan selama pelatihan. Meskipun kumpulan data seperti CommonCrawl dan RefinedWeb memberikan kontribusi yang signifikan data pelatihan, masih ada sebagian token yang belum ditemukan, sering disebut sebagai data "rahasia".
Rumor dan Spekulasi
Spekulasi pun bermunculan terkait asal muasal data yang dirahasiakan tersebut. Salah satu rumor menyatakan bahwa hal ini mencakup konten dari platform populer seperti Twitter, Reddit, dan YouTube, yang menyoroti potensi pengaruh konten buatan pengguna dalam membentuk GPT-4basis pengetahuan. Selain itu, terdapat dugaan seputar penyertaan koleksi besar seperti LibGen, gudang jutaan buku, dan Sci-Hub, sebuah platform yang menyediakan akses ke berbagai makalah ilmiah. Gagasan itu GPT-4 dilatih secara keseluruhan di GitHub juga telah beredar di kalangan penggemar AI.
Opini Wartawan
Meskipun ada banyak rumor, penting untuk menyikapi rumor tersebut dengan hati-hati. Pelatihan dari GPT-4 mungkin mendapat banyak manfaat dari kumpulan data khusus yang terdiri dari buku teks perguruan tinggi. Kumpulan data ini, yang mencakup berbagai kursus dan mata pelajaran, mungkin saja disusun dengan susah payah dengan tangan. Buku teks perguruan tinggi menyediakan basis pengetahuan terstruktur dan komprehensif yang dapat berhasil digunakan untuk melatih model bahasa dan mudah diubah menjadi file teks. Dimasukkannya kumpulan data semacam itu mungkin memberikan kesan demikian GPT-4 mempunyai pengetahuan dalam berbagai bidang.
Ketertarikan dengan GPT-4Pengetahuan
Salah satu aspek yang menarik dari GPT-4Pelatihannya adalah kemampuannya untuk menunjukkan keakraban dengan buku-buku tertentu dan bahkan mengingat pengidentifikasi unik dari platform seperti Project Euler. Para peneliti telah mencoba mengekstraksi bagian-bagian buku yang dihafal GPT-4 untuk mendapatkan wawasan tentang pelatihannya, yang selanjutnya memicu rasa ingin tahu tentang cara kerja model tersebut. Penemuan-penemuan ini menyoroti kapasitas luar biasa dari GPT-4 untuk menyimpan informasi dan menggarisbawahi kemampuan mengesankan model bahasa skala besar.
Fleksibilitas dari GPT-4
Spektrum luas topik dan bidang itu GPT-4 tampaknya dapat terlibat dengan memamerkan keserbagunaannya. Baik itu menjawab pertanyaan kompleks dalam ilmu komputer atau mendalami perdebatan filosofis, GPT-4Pelatihan yang dilakukan pada kumpulan data yang beragam membekalinya untuk berinteraksi dengan pengguna dari berbagai domain. Fleksibilitas ini berasal dari paparannya terhadap beragam sumber tekstual, menjadikannya alat yang berharga bagi banyak pengguna.
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.