LLaVA vs. GPT-4: Çok Modlu Potansiyeli ve Matematiksel Sınırlamaları Vurgulayan Açık Kaynaklı Yapay Zeka Gösterisi
Geçtiğimiz günlerde yapılan sunumda GPT-4, göze çarpan özelliklerden biri de görsellerle zenginleştirilmiş sohbetlere katılabilme yeteneğiydi. Ancak bu yetenek henüz entegre edilmedi. OpenAI'ın teklifi. Daha önce altını çizdiğimiz halde Bing'in bu konudaki yetkinliğiile artık “Geniş Dil ve Vizyon Asistanı” şeklinde açık kaynaklı bir çözüm ortaya çıktı (LLaVA).
LLaVA'nın Multimodal Potansiyeli
LLaVA, dil ve görüntü işlemeyi birleştiren açık kaynaklı, çok modlu bir yapay zekadır. LLaVA demosuna erişilebilir okuyun.
Taksi ve adamın resmini girerek basit bir test yaptık ve LLaVA bana tanımlayıcı bir analiz sağladı. Ancak Bing'in çözdüğüne benzer matematik problemleriyle buna meydan okuma girişimlerim sonuçsuz kaldı. LLaVA, görüntü tanıma konusundaki yeterliliğine rağmen matematikle mücadele ediyor gibi görünüyor.
Matematik Görevleriyle İlgili Zorluklar
LLaVA'ya, Bing tarafından başarıyla çözülenlere benzer, trigonometri içeren bir matematik problemi sunduk. Maalesef LLaVA doğru çözümü sağlayamadı ve 169'un karekökü için 13.2 olarak hatalı bir cevap döndürdü.
Bu sorguyu çözelim
Eldeki görev, kenarları 5 cm ve 12 cm olan bir üçgenin köşegen uzunluğunun belirlenmesini içermektedir. Bunu başarmak için, dik açılı bir üçgende hipotenüsün uzunluğunun karesinin (dik açının karşısındaki kenar) diğer iki kenarın karelerinin toplamına eşit olduğunu belirten Pisagor teoremini kullanabiliriz.
Bu senaryoda hipotenüs üçgenin köşegenine karşılık gelir ve bunu verilen iki kenarın karelerinin toplamının karekökünü alarak tespit edebiliriz.
Başlamak için, üçgenin bitişik olmayan iki köşesini birleştiren kenar olan köşegenin uzunluğunu bulmalıyız. Bu örnekte bu iki köşe, 5 cm ve 12 cm ölçülerindeki kenarlarla ilişkilidir.
Şimdi Pisagor teoremini uygulayalım:
(5 cm)^2 + (12 cm)^2 = çapraz^2
5^2 + 12^2 = köşegen^2
25 + 144 = köşegen^2
169 = çapraz^2
Son olarak her iki tarafın karekökünü alarak köşegenin uzunluğunu bulabiliriz:
√169 = köşegen
Köşegenin uzunluğu yaklaşık 13.2 cm'dir.
Görsellere Alışılmadık Bir Bakış Açısı
LLaVA, özellikle matematiksel problem çözmede zorluklar devam etse de, görüntülerle iletişim kurma becerisinde öne çıkıyor. Örneğin, sarı bir taksinin penceresinden dışarı doğru eğilmiş, beyaz gömlekli bir çamaşır ipini tutan bir adamın görüntüsü sunulduğunda, LLaVA alışılmadık bir perspektif sağladı. Bu tür bir sahnenin alışılmışın dışında olduğu, bireylerin ellerinde kıyafetle arabanın camından dışarı eğildiklerine tanık olmanın yaygın olmadığı öne sürüldü. Analiz, adamın taksi hareket halindeyken gömleğini kurutmak için alışılmadık ve potansiyel olarak güvenli olmayan bir yöntem denediğini gösterdi.
LLaVA, özellikle görüntülerle konuşma konusunda umut verici çok modlu yetenekler sunarken, matematiksel problem çözmede sınırlamalarla karşı karşıyadır. Benzer bir matematik problemine daha doğru bir çözüm bulunmasının da gösterdiği gibi, Google'ın bu bağlamdaki yeteneklerinin LLaVA'nınkini aştığını belirtmekte fayda var.
Yapay zekanın çok modlu yeteneklerle geliştirilmesi şüphesiz heyecan verici bir ilerlemedir ve LLaVA bu yönde övgüye değer bir açık kaynak çabasıdır. Ancak matematiksel gelişimini geliştirmek için iyileştirmelere ihtiyaç vardır. muhakeme yetenekleri görüntü analizindeki uzmanlığıyla eşleşecek.
Daha doğru bir matematiksel çözüm için Google'ın yetenekleri şu anda üstündür: Google'ın Matematik Problem Çözücüsü.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.