Stanford'un Araştırması Doğruladı GPT-4 Aptallaşıyor
Kısaca
Stanford ve UC Berkeley'den Matei Zaharia ve ekibi tarafından yapılan bir araştırmada, GPT-4 ve ChatGPT modelin etkinliği hakkında kullanıcı endişelerini gidermek için.
Çalışma, modelleri dört belirli görevde değerlendirdi: matematik, kodlama, duyarlılık ve görsel muhakeme.
Stanford ve UC Berkeley'den Matei Zaharia ve ekibi bir çalışma yaptı performansını karşılaştıran GPT-4 için ChatGPT. Bu araştırma, modelin etkinliğinin azaldığına dair kullanıcı endişelerini gidermeyi amaçlıyordu.
İlgili bağlantılar: GPT-4 vs GPT-3: Yeni Model Neler Sunuyor? |
Araştırmacılar, çalışmayı dört belirli görevdeki modelleri değerlendirmek için tasarladılar. Bu görevler şunları içeriyordu:
- Matematik: Modelin belirli bir sayının asal mı yoksa bileşik mi olduğunu belirleme yeteneği.
- Kodlama: Modelin anlamlı ve işlevsel kod üretme yeteneğinin değerlendirilmesi.
- Duyarlılık: Modelin potansiyel olarak "toksik" içeriğe sahip sorulara verdiği yanıtları analiz etme.
- Görsel Muhakeme: Modelin görsel kalıpları içeren problemleri çözme yeteneğini ARC kıyaslamasını kullanarak test etme. Katılımcıların bir dizi görüntüdeki kalıpları belirlemesi ve bunları yeni bir örneği çözmek için uygulaması gerekiyordu.
Hem matematik alanında GPT-4 Mart ve Haziran sürümleri, asal ve bileşik sayıların belirlenmesinde tutarlı bir doğruluk sergiledi. Modeller, bu hesaplamaları yapma konusunda ustalık sergileyerek güvenilir sonuçlar sağladı.
Kodlamaya devam edersek; GPT-4 Öncekilerle karşılaştırıldığında anlamlı ve işlevsel kod oluşturma konusunda gelişmiş bir yetenek sergiledi. Modelin kod oluşturma yetenekleri, geliştiriciler ve programcılar için potansiyel faydalar sunarak ümit verici oldu.
Duyarlılıkla ilgili olarak çalışma, modellerin potansiyel olarak zararlı veya rahatsız edici içerik içeren sorulara verdiği yanıtları değerlendirdi. GPT-4 gelişmiş duyarlılık analizi gösterdi ve bu tür bağlamlarda uygun yanıtlar verme konusunda gelişmiş bir yetenek sergiledi. Bu, potansiyel olarak sorunlu çıktılarla ilgili kullanıcı endişelerinin giderilmesinde ileriye doğru atılmış olumlu bir adım anlamına gelir.
Son olarak, ARC kıyaslamasını temel alan görsel muhakeme görevleri her iki kişi tarafından da başarıyla tamamlandı. GPT-4 versiyonları. Modeller, görüntü kümeleri içindeki kalıpları etkili bir şekilde tanımladı ve bu kalıpları yeni örnekleri çözmek için uygulama becerisini gösterdi. Bu onların görsel anlama ve akıl yürütme kapasitelerini gösterir.
ChatGPT Haziran ayına kadar performans ölçütlerinde önemli bir büyüme gösterdi ve on katın üzerinde kayda değer bir gelişme sergiledi. Çalışma, bu gelişmeye katkıda bulunan belirli faktörleri derinlemesine incelemese de, ChatGPTmatematiksel akıl yürütme ve problem çözme yeteneklerindeki ilerleme.
İlgili bağlantılar: 10'ün En İyi 2023 Yapay Zeka Fotoğraf İyileştiricisi |
Kalitesi GPT-4 ve ChatGPT programlama yeteneklerinin bir analizinden sonra sorgulanmıştır. Ancak daha yakından bakıldığında, ilk izlenimlerle çelişen bazı büyüleyici nüanslar ortaya çıkıyor.
Yazarlar, kodun doğruluğunu doğrulamadı veya yürütmedi; değerlendirmeleri yalnızca Python kodu olarak geçerliliğine dayanıyordu. Ek olarak, modeller, istemeden kodun yürütülmesini engelleyen bir dekoratör kullanarak belirli bir kod çerçeveleme tekniğini öğrenmiş gibi görünüyordu.
Sonuç olarak, ne sonuçların ne de deneyin kendisinin model bozulmasının kanıtı olarak kabul edilemeyeceği ortaya çıkıyor. Bunun yerine, modeller, eğitimlerindeki varyasyonları potansiyel olarak yansıtan, yanıt oluşturmaya yönelik farklı bir yaklaşım sergiliyor.
Programlama görevleri söz konusu olduğunda, her iki model de "yanlış" istemlere yanıt vermede bir azalma gösterdi. GPT-4 bu gibi durumlarda dört kattan fazla bir azalma sergiliyor. Ek olarak, Görsel Muhakeme görevinde, yanıtların kalitesi her iki model için de birkaç yüzde puanı arttı. Bu gözlemler performanstaki bozulmadan ziyade ilerlemeyi göstermektedir.
Bununla birlikte, matematiksel becerilerin değerlendirilmesi merak uyandıran bir unsur sunar. Modeller, tutarlı bir "evet" yanıtını gösteren yanıtlar olarak tutarlı bir şekilde asal sayılar sağladı. Yine de, örneğe bileşik sayılar eklendiğinde, modellerin davranışlarını değiştirdiği ve "hayır" yanıtları vermeye başladığı, kalitenin düşmesinden çok belirsizliğe işaret ettiği ortaya çıktı. Testin kendisi tuhaf ve tek taraflıve sonuçları, kalitedeki düşüşten ziyade model davranışındaki değişimlere bağlanabilir.
Tarayıcı tabanlı sürümlerin değil, API sürümlerinin test edildiğini unutmamak önemlidir. Tarayıcıdaki modellerin kaynakları optimize etmek için ayarlamalar yapmış olması mümkün olsa da, ekteki çalışma bu durumu sağlamamaktadır. defiBu hipotezi kesin olarak kanıtlayın. Bu tür değişimlerin etkisi, gerçek model düşüşleriyle karşılaştırılabilir olabilir ve bu da belirli çalışma koşullarına güvenen kullanıcılar için potansiyel zorluklara yol açabilir. istemleri ve birikmiş deneyim.
Halinde GPT-4 API uygulamalarında davranıştaki bu sapmaların somut sonuçları olabilir. Belirli bir kullanıcının ihtiyaçlarına ve görevlerine göre geliştirilen kod, modelin davranışında değişiklik olması durumunda artık amaçlandığı gibi çalışmayabilir.
Kullanıcıların benzer test uygulamalarını iş akışlarına dahil etmeleri önerilir. Kullanıcılar, bir dizi bilgi istemi, eşlik eden metinler ve beklenen sonuçlar oluşturarak, beklentileri ile modelin yanıtları arasındaki tutarlılığı düzenli olarak kontrol edebilir. Herhangi bir sapma tespit edilir edilmez, durumu düzeltmek için uygun önlemler alınabilir.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.