FLM-101B: Süper Uygun Maliyetli 101B Ölçekli Dil Modeli, Önde Gelen Yapay Zeka Modelleriyle Rekabet Ediyor
Kısaca
Çin Yüksek Lisansı LM-101B, 100 bin dolarlık bir bütçeyle eğitilebilir ve aşağıdaki gibi iyi bilinen modellerle karşılaştırılabilir bir performans elde edebilir: GPT-3 ve GLM-130B.
Çinli araştırmacılar yeni bir yüksek lisans programını açıkladılar. FLM-101B101 milyar parametreyle övünen, yalnızca kod çözücüye yönelik bir LLM. Bu gelişme hem araştırma hem de pratik uygulamalar için uygun maliyetli bir alternatif sunmaktadır.
FLM-101B'yi öne çıkaran şey, nispeten mütevazı bir bütçeyle elde edilen olağanüstü performansıdır. LLM'leri sıfırdan eğitmenin astronomik yatırımlar gerektirebileceği iyi bilinse de, FLM-101B'nin yaratıcıları, yalnızca 101 bin dolarlık bir bütçe kullanarak 100 milyar parametreli bir modeli eğitmenin mümkün olduğunu gösterdi.
Deneysel sonuçlar etkileyici olmaktan başka bir şey değil. FLM-101B, yerleşik ve yoğun kaynak kullananlarla karşılaştırılabilir performans seviyeleri göstermiştir gibi modeller GPT-3 ve GLM-130B. Bu karşılaştırma, bu uygun maliyetli modelin, özellikle eğitim verilerinde bulunmayan karmaşık bağlamlara sahip IQ kıyaslamalarındaki muazzam potansiyelini vurgulamaktadır.
FLM-101B'nin yaratıcıları, yapay zeka araştırma ve geliştirmesini ilerletmeye olan bağlılıklarını vurgulayan bir hareketle bu modeli açık kaynak haline getirdi. Dünya çapındaki araştırmacılar ve geliştiriciler artık hem Çince hem de İngilizce dillerini kapsayan çeşitli uygulamalar için bu 101B ölçekli LLM'ye erişebilir ve bunlardan yararlanabilir.
FLM-101B modeli benzersiz bir eğitim yaklaşımı kullanır. Eğitimin ilk aşamalarında 16 milyar parametrelik daha küçük bir modelden hızla bilgi toplar ve aşamalı olarak 101 milyar parametreye kadar ölçeklendirir. Bu artan yaklaşım, eğitim maliyetlerini önemli ölçüde azaltarak, daha geniş bir proje yelpazesi için finansal açıdan uygun hale getirir.
FLM-101B'nin öne çıkan özelliklerinden biri, çıkarım sırasında etkili pencere boyutu genişletme desteğidir. Bu, modelin daha geniş bir bağlamı ele almasına olanak tanıyan, uyarlanabilirliğini ve kullanılabilirliğini artıran xPos döner konum yerleştirmenin kullanılmasıyla elde edilir.
FLM-101B, 24 günden kısa bir sürede 800 DGX-A26 GPU sunucusundan oluşan bir küme üzerinde eğitildi. Bu etkileyici başarı, modelin ölçeklenebilirliğini ve verimli kaynak kullanımını vurguluyor. Modelin Megatron-LM'den uyarlanan eğitim kod tabanı, yakında açık kaynak olarak kullanıma sunulacak ve yapay zeka topluluğuna değerli bilgiler sağlayacak.
FLM-101B'nin yaratıcıları, veri kümesinin açık doğası nedeniyle modelin eğitim derlemindeki güvenli olmayan örneklere maruz kalması da dahil olmak üzere potansiyel sınırlamaların farkındadır. Bu uyarı, sorumlu yapay zeka kullanımının öneminin bir hatırlatıcısıdır ve içerik denetimi.
FLM-101B dikkate değer sonuçlar elde ederken, yaratıcılar geliştirilebilecek alanların olduğunu kabul ediyor. Modelin çıkarım süreci güçlü olmasına rağmen henüz tam olarak optimize edilmemiştir, bu da daha yüksek kaynak kullanımına ve daha düşük hıza yol açmaktadır. Ancak, bu sınırlamayı ele alarak çıkarımlara Flash Attention'ı dahil etme planları devam etmektedir.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.