05 Nisan 2023

Büyük Dil Modelleri Hakkında Bilmeniz Gereken 8 Şey

Yayınlanma: 05 Nisan 2023, 4:29 Güncellenme: 05 Nisan 2023, 4:30

Kısaca

Büyük dil modelleri (LLM'ler) doğal dilin nüanslarını keşfetmek, makinelerin metni anlama ve üretme yeteneğini geliştirmek ve ses tanıma ve makine çevirisi gibi görevleri otomatikleştirmek için kullanılır.

LLM'leri yönetmenin kolay bir çözümü yoktur, ancak onlar da insanlar kadar yeteneklidir.

Doğal dil işlemenin gelişimi ve iş dünyasındaki kullanımındaki artışla birlikte, büyük dil modellerine artan bir ilgi var. Bu modeller, doğal dilin nüanslarını keşfetmek, makinelerin metni anlama ve oluşturma yeteneğini geliştirmek ve ses tanıma ve makine çevirisi gibi görevleri otomatikleştirmek için kullanılır. İşte büyük dil modelleri (LLM) hakkında bilmeniz gereken sekiz temel şey.

Büyük Dil Modelleri Hakkında Bilmeniz Gereken 10 Şey — @Midjourney / Taka#4076

İçindekiler

Maliyetler artmaya devam ettikçe LLM'ler daha "yetenekli"
Nasıl olduğuna hızlı bir bakış GPT modeller eğitim maliyetleri arttıkça uyum sağlar
LLM'ler, dış dünyanın temsillerini kullanarak tahta oyunları oynamayı öğrenirler.
LLM'yi yönetmenin kolay bir çözümü yoktur
Uzmanlar, LLM'nin nasıl çalıştığını açıklamakta zorlanıyor
LLM'ler insanlar kadar yeteneklidir
LLM'ler sadece "her şeyi yapabilen" olmaktan daha fazlası olmalıdır
Modeller, ilk izlenimlere göre insanların düşündüğünden daha akıllıdır

Maliyetler artmaya devam ettikçe LLM'ler daha "yetenekli"

LLM'ler, harika yenilikler olmasa bile, artan maliyetlerle tahmin edilebileceği gibi daha "yetenekli" hale geliyor. Buradaki en önemli şey, hakkında makalede gösterilen öngörülebilirliktir. GPT-4: Son modelin %0.1'i kadar bir bütçeyle beş ila yedi küçük model öğretildi ve ardından buna dayanarak devasa bir model için bir tahmin yapıldı. Spesifik bir görevin bir alt örneğindeki kafa karışıklığının ve ölçümlerin genel bir değerlendirmesi için, böyle bir tahmin çok doğruydu. Bu öngörülebilirlik, buna göre bütçe yapabildikleri ve gelecekteki harcamaları planlayabildikleri için operasyonları için LLM'lere güvenen işletmeler ve kuruluşlar için önemlidir. Bununla birlikte, artan maliyetlerin gelişmiş yeteneklere yol açabilmesine rağmen, gelişme hızının eninde sonunda sabit kalabileceğini ve ilerlemeye devam etmek için yeni inovasyonlara yatırım yapmayı gerekli kılabileceğini belirtmek önemlidir.

Nasıl olduğuna hızlı bir bakış GPT modeller eğitim maliyetleri arttıkça uyum sağlar

Bununla birlikte, belirli önemli beceriler, artan öğrenmenin bir yan ürünü olarak tahmin edilemeyecek şekilde ortaya çıkma eğilimindedir. eğitim maliyetleri (daha uzun eğitim, daha fazla veri, daha büyük model) — modellerin belirli görevleri ne zaman gerçekleştirmeye başlayacağını tahmin etmek neredeyse imkansızdır. Konuyu yazımızda daha derinlemesine inceledik. göre gelişim tarihi hakkında GPT modeller. Resim, modellerin kalitesindeki artışın farklı görevlere göre dağılımını göstermektedir. Çeşitli görevleri yapmayı öğrenebilenler yalnızca büyük modellerdir. Bu grafik, boyutu büyütmenin önemli etkisini vurgulamaktadır. GPT modelleri çeşitli görevlerdeki performansları hakkında. Bununla birlikte, bunun artan hesaplama kaynakları ve çevresel etki pahasına geldiğini not etmek önemlidir.

LLM'ler, dış dünyanın temsillerini kullanarak tahta oyunları oynamayı öğrenirler.

LLM'ler genellikle dış dünyanın temsillerini öğrenir ve kullanır. Burada birçok örnek var ve işte onlardan biri: Eğitimli modeller oyun alanının resmini görmeden bireysel hareketlerin tanımlarına dayalı masa oyunları oynamak, her hamlede tahtanın durumuna ilişkin iç temsilleri öğrenmek. Bu iç temsiller daha sonra şu amaçlarla kullanılabilir: geleceği tahmin et hareketler ve sonuçlar, modelin oyunu yüksek düzeyde oynamasına olanak tanır. Temsilleri öğrenme ve kullanma yeteneği bir anahtardır. makine öğreniminin yönü ve yapay zeka.

LLM'yi yönetmenin kolay bir çözümü yoktur

LLM davranışını kontrol etmek için güvenilir yöntemler yoktur. Çeşitli sorunların anlaşılmasında ve hafifletilmesinde bazı ilerlemeler kaydedilmiş olsa da (bunlar ChatGPT ve GPT-4 geribildirim yardımıyla), bunları çözüp çözemeyeceğimiz konusunda bir fikir birliği yoktur. Gelecekte daha büyük sistemler oluşturulduğunda bunun çok büyük, potansiyel olarak yıkıcı bir sorun haline geleceği endişesi artıyor. Bu nedenle araştırmacılar, yapay zeka sistemlerinin değer uyumu ve ödül mühendisliği gibi insan değerleri ve hedefleriyle uyumlu olmasını sağlamak için yeni yöntemler araştırıyor. Ancak garantiyi sağlamak zorlu bir görev olmaya devam ediyor. Yüksek Lisans'ın güvenliği ve güvenilirliği karmaşık gerçek dünya senaryolarında.

Daha fazla oku: OpenAI Geliştirmek İçin 50'den Fazla Uzmandan Oluşan Bir Ekip Kuruyor GPT-4Güvenlik

Uzmanlar, LLM'nin nasıl çalıştığını açıklamakta zorlanıyor

Uzmanlar, LLM'nin iç işleyişini henüz yorumlayamıyor. Hiçbir teknik, modelin herhangi bir sonuç ürettiğinde ne tür bilgi, akıl yürütme veya amaçlar kullandığını tatmin edici bir şekilde belirtmemize izin vermez. Bu yorumlanabilirlik eksikliği, LLM'nin kararlarının güvenilirliği ve adaleti hakkında, özellikle ceza adaleti veya kredi puanlama gibi yüksek riskli uygulamalarda endişelere yol açar. Ayrıca, daha şeffaf ve hesap verebilir yapay zeka modelleri geliştirmek için daha fazla araştırma yapılması gerektiğinin altını çiziyor.

LLM'ler insanlar kadar yeteneklidir

Her ne kadar Yüksek Lisans'lar öncelikli olarak eğitilmiş olsa da metin yazarken insan davranışını taklit etmekbirçok konuda bizi aşacak potansiyele sahipler. Bu zaten satranç veya Go oynarken görülebilir. Bunun nedeni, büyük miktarda veriyi analiz edebilme ve bu analize dayanarak, insanların erişemeyeceği bir hızda kararlar verebilme yetenekleridir. Bununla birlikte, Yüksek Lisans'lar hala insanların sahip olduğu yaratıcılık ve sezgiden yoksundur ve bu da onları birçok göreve daha az uygun hale getirmektedir.

Daha fazla oku: OpenAI Geliştirmek İçin 50'den Fazla Uzmandan Oluşan Bir Ekip Kuruyor GPT-4Güvenlik

LLM'ler sadece "her şeyi yapabilen" olmaktan daha fazlası olmalıdır

LLM'ler, yaratıcılarının değerlerini veya İnternet'ten bir seçimde kodlanmış değerleri ifade etmemelidir. Klişeleri veya komplo teorilerini tekrarlamamalı veya kimseyi gücendirmeye çalışmamalılar. Bunun yerine, LLM'ler, kültürel ve toplumsal farklılıklara saygı gösterirken kullanıcılarına tarafsız ve olgusal bilgiler sağlayacak şekilde tasarlanmalıdır. Ayrıca, bu standartları karşılamaya devam ettiklerinden emin olmak için düzenli olarak test edilmeli ve izlenmelidir.

Modeller, ilk izlenimlere göre insanların düşündüğünden daha akıllıdır

İlk izlenimlere dayanan bir modelin yeteneğiyle ilgili tahminler genellikle yanıltıcıdır. Çoğu zaman, doğru istemi bulmanız, bir model önermeniz ve belki örnekler göstermeniz gerekir ve o, çok daha iyi başa çıkmaya başlayacaktır. Yani ilk bakışta göründüğünden daha "akıllı". Bu nedenle, modele adil bir şans vermek ve en iyi performansı göstermesi için gerekli kaynakları sağlamak çok önemlidir. Doğru yaklaşımla, görünüşte yetersiz olan modeller bile yetenekleriyle bizi şaşırtabilir.

BIG-Bench veri setindeki 202 görevlik bir örneğe odaklanırsak (test edilmesi özellikle zorlaştırılmıştır) dil modelleri itibaren ve şuna kadar), o zaman kural olarak (ortalama olarak), modeller artan ölçekle birlikte kalitede bir artış gösterir, ancak bireysel olarak görevlerdeki metrikler şunları yapabilir:

kademeli olarak geliştirmek,
büyük ölçüde geliştirmek,
değişmeden kalır,
azaltmak,
korelasyon göstermez.

Bütün bunlar, gelecekteki herhangi bir sistemin performansını güvenle tahmin etmenin imkansızlığına yol açar. Yeşil kısım özellikle ilginçtir - bu tam olarak kalite göstergelerinin sebepsiz yere keskin bir şekilde yükseldiği yerdir.

AI hakkında daha fazlasını okuyun:

Etiketler:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.

Daha fazla haber

Damir Yalalov