Temmuz 11, 2023

GPT-4Sızdırılan Ayrıntılar, Devasa Ölçeğine ve Etkileyici Mimarisine Işık Tutuyor

Yayınlanma: 11 Temmuz 2023, 7:19 Güncellenme: 11 Temmuz 2023, 7:23

Düzenlendi ve doğruluk kontrolü yapıldı: 11 Temmuz 2023, 7:19

Kısaca

Hakkında sızdırılan bilgiler GPT-4 yapay zeka topluluğu arasında heyecana yol açtı. Önceki modelin parametrelerinin 10 katından fazla olan, GPT-3, GPT-4 1.8 katmana dağıtılmış 120 trilyon parametreye sahip olduğu tahmin edilmektedir.

OpenAI çok katmanlı algılayıcılar (MLP) için 16 milyar parametreye sahip 111 uzmandan yararlanan bir uzmanlar karışımı (MoE) modeli uyguladı. Modelin verimli çıkarım süreci, ileri geçiş başına 280 milyar parametre ve 560 TFLOP kullanır. OpenAI'nin verimliliği ve maliyet etkinliğini en üst düzeye çıkarma taahhüdü. Modelin eğitim veri seti, 13k'den 8k'ya ince ayar ile 32 trilyon jeton içerir.

OpenAI paralellikten yararlanıldı GPT-4 100 yollu tensör paralelliği ve 8 yollu ardışık düzen paralelliği kullanarak A15 GPU'larının tüm potansiyelinden yararlanmak için. Eğitim süreci kapsamlı ve kaynak yoğundu; maliyetleri 32 milyon dolardan 63 milyon dolara kadar değişiyordu.

GPT-4Çıkarım maliyeti önceki modele göre yaklaşık üç kat daha yüksektir, ancak aynı zamanda çoklu sorgu dikkati, sürekli toplu işlem ve spekülatif kod çözme özelliklerini de içerir. Çıkarım mimarisi, birden fazla veri merkezine dağıtılmış 128 GPU'dan oluşan bir küme üzerinde çalışır.

Son zamanlarda çevredeki ayrıntılar sızdırıldı GPT-4 AI topluluğu aracılığıyla şok dalgaları gönderdi. Açıklanmayan bir kaynaktan elde edilen sızdırılan bilgiler, bu çığır açan modelin hayranlık uyandıran yeteneklerine ve benzeri görülmemiş ölçeğine bir bakış sağlıyor. Gerçekleri ayrıntılarıyla inceleyeceğiz ve bu durumu ortaya çıkaran temel hususları ortaya çıkaracağız. GPT-4 gerçek bir teknoloji harikası.

GPT-4Sızdırılan Ayrıntılar, Devasa Ölçeğine ve Etkileyici Mimarisine Işık Tutuyor — kredi: Metaverse Post (mpost.io)

GPT-4Devasa Parametre Sayısı

Sızıntının en çarpıcı ortaya çıkardığı şeylerden biri, olayın büyüklüğüdür. GPT-4. Önceki modelin parametrelerinin 10 katından daha fazlası ile şaşırtıcı bir boyuta sahiptir. GPT-3. Şaşırtıcı bir toplamın yaklaşık 1.8 olduğu tahmin ediliyor. trilyon parametre etkileyici 120 katmana dağıtılmış. Ölçekteki bu önemli artış kuşkusuz GPT-4gelişmiş yetenekleri ve çığır açan gelişmeler için potansiyel.

Uzman Karışımı Modeli (MoE)

İstisnai performansı korurken makul maliyetler sağlamak, OpenAI uzmanlar karışımı (MEB) modelini uyguladı GPT-4. Modelde, çok katmanlı algılayıcılar (MLP) için her biri yaklaşık 16 milyar parametreden oluşan 111 uzmandan faydalanılarak, OpenAI etkin bir şekilde optimize edilmiş kaynak tahsisi. Özellikle, her ileri geçiş sırasında, sonuçlardan ödün vermeden hesaplama gereksinimlerini en aza indirerek yalnızca iki uzman yönlendirilir. Bu yenilikçi yaklaşım, OpenAImodellerinde verimliliği ve maliyet etkinliğini en üst düzeye çıkarma taahhüdü.

Çok ilginç ve ayrıntılı sızıntı GPT-4 arkasındaki mantığın ve sonuçlarının mükemmel analizi ile mimari; @dylan522p :https://t.co/eHE7VlGY5V

Ödeme duvarlı olmayan bir özet burada bulunabilir: https://t.co/rLxw5s9ZDt
— Jan P. Harries (@jphme) Temmuz 11, 2023

Basitleştirilmiş MoE Yönlendirme Algoritması

Model, genellikle her belirteci idare edecek uzmanları seçmek için gelişmiş yönlendirme algoritmalarını araştırırken, OpenAIşu andaki yaklaşımı GPT-4 modelin daha basit olduğu bildiriliyor. Yapay zeka tarafından kullanılan yönlendirme algoritmasının nispeten basit olduğu ancak yine de etkili olduğu iddia ediliyor. Dikkat edilmesi gereken yaklaşık 55 milyar paylaşılan parametre, tokenların model içindeki uygun uzmanlara verimli bir şekilde dağıtılmasını kolaylaştırır.

Verimli Çıkarım

GPT-4Çıkarım süreci, verimliliğini ve hesaplama becerisini sergiliyor. Tek bir token oluşturmaya adanan her ileri geçiş, yaklaşık 280 milyar parametre ve 560 TFLOP (saniyede tera kayan nokta işlemleri) kullanır. Bu, muazzam ölçekteki durumla tam bir tezat oluşturuyor. GPT-4Tamamen yoğun bir modelde 1.8 trilyon parametresi ve ileri geçiş başına 3,700 TFLOP'u ile. Kaynakların verimli kullanımı öne çıkıyor OpenAIaşırı hesaplama gereksinimleri olmadan optimum performansa ulaşmaya olan bağlılığı.

Kapsamlı Eğitim Veri Kümesi

GPT-4 yaklaşık 13 trilyon token içeren devasa bir veri seti üzerinde eğitilmiştir. Bu belirteçlerin hem benzersiz belirteçleri hem de çağ sayılarını hesaba katan belirteçleri içerdiğini unutmamak önemlidir. Eğitim süreci metin tabanlı veriler için iki dönem ve kod tabanlı veriler için dört dönem içerir. OpenAI modelin performansını iyileştirmek için ScaleAI kaynaklı ve dahili olarak milyonlarca talimat satırı ince ayar verisinden yararlandı.

Eğitim öncesi aşama GPT-4 8k bağlam uzunluğu kullanıldı. Daha sonra modelde ince ayarlar yapıldı ve sonuçta 32k versiyonu ortaya çıktı. Bu ilerleme, modelin yeteneklerini geliştirerek ve onu belirli görevlere göre uyarlayarak eğitim öncesi aşamaya dayanır.

Paralellik aracılığıyla GPU'larla ölçeklendirme

OpenAI paralelliğin gücünden yararlandı GPT-4 A100 GPU'larının tüm potansiyelinden yararlanmak için. NVLink'in sınırı olduğundan paralel işlemeyi en üst düzeye çıkaran 8 yollu tensör paralelliğini kullandılar. Ayrıca performansı daha da artırmak için 15 yollu boru hattı paralelliği kullanıldı. Zero Stage 1 gibi spesifik teknikler muhtemelen kullanılmış olsa da, kesin metodoloji açıklanmadı.

Eğitim Maliyeti ve Kullanım Zorlukları

Eğitim GPT-4 kapsamlı ve kaynak yoğun bir çalışmaydı. OpenAI 25,000 ila 100 günlük bir süre içinde yaklaşık %90 ila %100 MFU (en sık kullanılan) kullanım oranında çalışan yaklaşık 32 A36 GPU tahsis etti. Eğitim süreci, kontrol noktalarından sık sık yeniden başlatmayı gerektiren çok sayıda başarısızlığa maruz kaldı. A1 saati başına 100 ABD Doları olarak tahmin edilirse, eğitim maliyetleri tek başına bu çalışma için yaklaşık 63 milyon $ tutarında olacaktır.

Uzman Karışımında Ödün Vermeler

Uzmanların karışımı modelinin uygulanması çeşitli ödünleşimler sunar. Bu durumuda GPT-4, OpenAI daha yüksek bir sayı yerine 16 uzmanı seçti. Bu karar, üstün kayıp sonuçları elde etme ile çeşitli görevler arasında genelleştirilebilirliği sağlama arasındaki dengeyi yansıtır. Daha fazla uzman, görev genelleme ve yakınsama açısından zorluklar sunabilir. OpenAIegzersiz tercihi uzman dikkat seçim, güvenilir ve sağlam performans taahhüdü ile uyumludur.

Çıkarım Maliyeti

Önceki modeli olan 175 milyar parametreli Davinci modeliyle karşılaştırıldığında, GPT-4'nin çıkarım maliyeti yaklaşık üç kat daha yüksektir. Bu tutarsızlık, desteklemek için gereken daha büyük kümeler de dahil olmak üzere çeşitli faktörlere bağlanabilir. GPT-4 ve çıkarım sırasında elde edilen daha düşük kullanım. Tahminler, çıkarımda bulunurken 0.0049 A1,000 GPU için 128 jeton başına yaklaşık 100 ABD Doları sent ve 0.0021 H1,000 GPU için 128 jeton başına 100 ABD Doları tutarında bir maliyet olduğunu göstermektedir. GPT-4 8k ile. Bu rakamlar, maliyet optimizasyonu için önemli hususlar olan makul kullanım ve yüksek parti büyüklüklerini varsaymaktadır.

Çoklu Sorgu Dikkati

OpenAI alanda yaygın olarak kullanılan bir teknik olan çoklu sorgu dikkatinden (MQA) yararlanır. GPT-4 ilave olarak. MQA'nın uygulanmasıyla model yalnızca bir kafa gerektirir ve anahtar-değer önbelleği (KV önbelleği) için gereken bellek kapasitesini önemli ölçüde azaltır. Bu optimizasyona rağmen 32k partinin GPT-4 40 GB A100 GPU'lara yerleştirilemez ve 8k, maksimum parti boyutuyla sınırlıdır.

Sürekli Gruplama

Gecikme ve çıkarım maliyetleri arasında bir denge kurmak için, OpenAI hem değişken parti boyutlarını hem de sürekli partilemeyi birleştirir GPT-4. Bu uyarlanabilir yaklaşım, esnek ve verimli işlemeye olanak tanır, kaynak kullanımını optimize eder ve hesaplama yükünü azaltır.

GPT-4 metin kodlayıcının yanında, ikisi arasındaki çapraz dikkati öne çıkaran ayrı bir görüntü kodlayıcı sunar. Flamingo'yu anımsatan bu mimari, halihazırda etkileyici olan 1.8 trilyon parametre sayısına ek parametreler ekliyor. GPT-4. Vizyon modeli, yalnızca metinden oluşan ön eğitim aşamasını takiben yaklaşık 2 trilyon token kullanılarak ayrı bir ince ayardan geçirilir. Bu vizyon yeteneği, özerk ajanlar web sayfalarını okumak, görüntüleri yazıya dökmek ve video içeriğini yorumlamak için; multimedya verileri çağında paha biçilemez bir varlık.

Spekülatif Kod Çözme

İlginç bir yönü GPT-4'nin çıkarım stratejisi spekülatif kod çözmenin olası kullanımıdır. Bu yaklaşım daha küçük, daha hızlı bir model önceden birden çok belirteç için tahminler oluşturmak için. Bu tahmin edilen belirteçler daha sonra tek bir parti olarak daha büyük bir "oracle" modeline beslenir. eğer daha küçük modelin tahminleri daha büyük modelin anlaşmasıyla hizalayın, birkaç belirteç birlikte çözülebilir. Bununla birlikte, daha büyük model, taslak model tarafından tahmin edilen belirteçleri reddederse, yığının geri kalanı atılır ve çıkarım yalnızca daha büyük modelle devam eder. Bu yaklaşım, potansiyel olarak daha düşük olasılık dizilerini kabul ederken verimli kod çözmeye izin verir. Bu spekülasyonun şu anda doğrulanmamış olduğunu belirtmekte fayda var.

Çıkarım Mimarisi

GPT-4Çıkarım süreci, farklı konumlardaki birden fazla veri merkezine dağıtılmış 128 GPU'dan oluşan bir küme üzerinde çalışır. Bu altyapı, hesaplama verimliliğini en üst düzeye çıkarmak için 8 yollu tensör paralelliği ve 16 yollu boru hattı paralelliği kullanır. 8 GPU'dan oluşan her düğüm yaklaşık 130 milyar parametreyi barındırır. 120 katmanlı model boyutuna sahip, GPT-4 Yerleştirmeleri hesaplama ihtiyacı nedeniyle muhtemelen ilk düğümde daha az katman olacak şekilde 15 farklı düğüme sığabilir. Bu mimari seçimler yüksek performanslı çıkarımı kolaylaştırır ve OpenAIhesaplama verimliliğinin sınırlarını zorlama taahhüdü.

Veri Kümesi Boyutu ve Bileşimi

GPT-4 Etkileyici 13 trilyon token üzerinde eğitildi ve ona öğrenilebilecek geniş bir metin külliyatı sağladı. Ancak eğitim sırasında kullanılan bilinen veri kümeleri tüm tokenları hesaba katamaz. CommonCrawl ve RefinedWeb gibi veri kümeleri, Eğitim verileri, genellikle "gizli" veriler olarak adlandırılan, hesaba katılmayan belirteçlerin bir kısmı kalır.

Söylentiler ve Spekülasyonlar

Açıklanmayan bu verilerin kaynağına ilişkin spekülasyonlar ortaya çıktı. Bir söylenti, Twitter, Reddit ve YouTube gibi popüler platformlardan içerik içerdiğini ve kullanıcı tarafından oluşturulan içeriğin şekillendirmedeki potansiyel etkisini vurguladığını öne sürüyor. GPT-4'ın bilgi tabanı. Ek olarak, milyonlarca kitabın yer aldığı LibGen ve çok sayıda bilimsel makaleye erişim sağlayan Sci-Hub platformu gibi geniş koleksiyonların da dahil edileceği yönünde varsayımlar var. Bu fikir GPT-4 GitHub'un tamamı üzerinde eğitildi ve yapay zeka meraklıları arasında da yayıldı.

Muhabirin Görüşü

Her ne kadar pek çok söylenti olsa da bu söylentilere temkinli yaklaşmak önemli. Eğitimi GPT-4 üniversite ders kitaplarından oluşan özel bir veri setinden büyük ölçüde faydalanmış olabilir. Çok çeşitli dersleri ve konuları kapsayan bu veri seti, titizlikle elle bir araya getirilebilirdi. Üniversite ders kitapları, bir dil modelini eğitmek için başarıyla kullanılabilecek ve kolayca metin dosyalarına dönüştürülebilecek yapılandırılmış ve kapsamlı bir bilgi tabanı sağlar. Böyle bir veri kümesinin dahil edilmesi şu izlenimi verebilir: GPT-4 çeşitli alanlarda bilgi sahibidir.

Büyüleyicilik GPT-4Bilgisi

İlgi çekici bir yönü GPT-4'nin eğitimi, belirli kitaplara aşinalık sergileme ve hatta Project Euler gibi platformlardan benzersiz tanımlayıcıları hatırlama becerisidir. Araştırmacılar kitapların ezberlenmiş bölümlerini çıkarmaya çalıştılar. GPT-4 eğitimine ilişkin içgörü kazanmak, modelin iç işleyişine dair merakı daha da artırmak. Bu keşifler şaşırtıcı kapasiteyi vurguluyor GPT-4 bilgileri korumak ve büyük ölçekli dil modellerinin etkileyici yeteneklerinin altını çizmek için.

Çok Yönlülük GPT-4

Geniş konu ve alan yelpazesi GPT-4 görünüşte çok yönlülüğünü sergiliyor. İster bilgisayar bilimindeki karmaşık soruları yanıtlıyor olun, ister felsefi tartışmalara dalın, GPT-4'nin çeşitli veri kümeleri üzerindeki eğitimi, onu çeşitli alanlardaki kullanıcılarla etkileşim kurma konusunda donatır. Bu çok yönlülük, çok çeşitli metinsel kaynaklara maruz kalmasından kaynaklanmaktadır ve bu da onu geniş bir kullanıcı yelpazesi için değerli bir araç haline getirmektedir.

AI hakkında daha fazlasını okuyun:

Etiketler:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.

Daha fazla haber

Damir Yalalov

Hot Stories

MPost Her Sanal Klavyede Bitcoin Sembol Entegrasyonunu Destekleyen 'Bitcoin Bir Emojiyi Hak Ediyor' Kampanyasında Sektör Liderlerine Katılıyor

by Alisa Davidson

Mayıs 10, 2024

Kripto Borsası OKX, 16 Mayıs'ta NOT-USDT Çiftiyle Spot Ticarete Başlayacak Notcoin'i Listeliyor

by Alisa Davidson

Mayıs 10, 2024

Blast Üçüncü Blast Altın Dağıtım Etkinliğini Başlattı, DApp'lere 15 Milyon Puan Ayırdı

by Alisa Davidson

Mayıs 10, 2024

Espresso Systems, Toplamanın Birlikte Çalışabilirliğini Artırmak İçin AggLayer'ı Geliştirmek İçin Polygon Laboratuvarlarıyla İşbirliği Yapıyor

by Alisa Davidson

Mayıs 09, 2024

En Yeni Haberler

MPost Her Sanal Klavyede Bitcoin Sembol Entegrasyonunu Destekleyen 'Bitcoin Bir Emojiyi Hak Ediyor' Kampanyasında Sektör Liderlerine Katılıyor

by Alisa Davidson

Mayıs 10, 2024

Kripto Borsası OKX, 16 Mayıs'ta NOT-USDT Çiftiyle Spot Ticarete Başlayacak Notcoin'i Listeliyor

by Alisa Davidson

Mayıs 10, 2024

Blast Üçüncü Blast Altın Dağıtım Etkinliğini Başlattı, DApp'lere 15 Milyon Puan Ayırdı

by Alisa Davidson

Mayıs 10, 2024

Espresso Systems, Toplamanın Birlikte Çalışabilirliğini Artırmak İçin AggLayer'ı Geliştirmek İçin Polygon Laboratuvarlarıyla İşbirliği Yapıyor

by Alisa Davidson

Mayıs 09, 2024

Volatilite Ortasında Bitcoin ETF'lerine Yönelik Kurumsal İştah Artıyor

13F başvuruları aracılığıyla yapılan açıklamalar, önemli kurumsal yatırımcıların Bitcoin ETF'leriyle uğraştığını ortaya koyuyor ve Bitcoin ETF'lerinin artan bir şekilde kabul edildiğinin altını çiziyor.

bilmek Daha