Haber Raporu Teknoloji
Temmuz 20, 2023

Stanford'un Araştırması Doğruladı GPT-4 Aptallaşıyor

Kısaca

Stanford ve UC Berkeley'den Matei Zaharia ve ekibi tarafından yapılan bir araştırmada, GPT-4 ve ChatGPT modelin etkinliği hakkında kullanıcı endişelerini gidermek için.

Çalışma, modelleri dört belirli görevde değerlendirdi: matematik, kodlama, duyarlılık ve görsel muhakeme.

Stanford ve UC Berkeley'den Matei Zaharia ve ekibi bir çalışma yaptı performansını karşılaştıran GPT-4 için ChatGPT. Bu araştırma, modelin etkinliğinin azaldığına dair kullanıcı endişelerini gidermeyi amaçlıyordu.

Stanford'un Araştırması Doğruladı GPT-4 Aptallaşıyor
kredi: Metaverse Post
İlgili bağlantılar: GPT-4 vs GPT-3: Yeni Model Neler Sunuyor?

Araştırmacılar, çalışmayı dört belirli görevdeki modelleri değerlendirmek için tasarladılar. Bu görevler şunları içeriyordu:

  • Matematik: Modelin belirli bir sayının asal mı yoksa bileşik mi olduğunu belirleme yeteneği.
  • Kodlama: Modelin anlamlı ve işlevsel kod üretme yeteneğinin değerlendirilmesi.
  • Duyarlılık: Modelin potansiyel olarak "toksik" içeriğe sahip sorulara verdiği yanıtları analiz etme.
  • Görsel Muhakeme: Modelin görsel kalıpları içeren problemleri çözme yeteneğini ARC kıyaslamasını kullanarak test etme. Katılımcıların bir dizi görüntüdeki kalıpları belirlemesi ve bunları yeni bir örneği çözmek için uygulaması gerekiyordu.

Hem matematik alanında GPT-4 Mart ve Haziran sürümleri, asal ve bileşik sayıların belirlenmesinde tutarlı bir doğruluk sergiledi. Modeller, bu hesaplamaları yapma konusunda ustalık sergileyerek güvenilir sonuçlar sağladı.

Kodlamaya devam edersek; GPT-4 Öncekilerle karşılaştırıldığında anlamlı ve işlevsel kod oluşturma konusunda gelişmiş bir yetenek sergiledi. Modelin kod oluşturma yetenekleri, geliştiriciler ve programcılar için potansiyel faydalar sunarak ümit verici oldu.

Duyarlılıkla ilgili olarak çalışma, modellerin potansiyel olarak zararlı veya rahatsız edici içerik içeren sorulara verdiği yanıtları değerlendirdi. GPT-4 gelişmiş duyarlılık analizi gösterdi ve bu tür bağlamlarda uygun yanıtlar verme konusunda gelişmiş bir yetenek sergiledi. Bu, potansiyel olarak sorunlu çıktılarla ilgili kullanıcı endişelerinin giderilmesinde ileriye doğru atılmış olumlu bir adım anlamına gelir.

Son olarak, ARC kıyaslamasını temel alan görsel muhakeme görevleri her iki kişi tarafından da başarıyla tamamlandı. GPT-4 versiyonları. Modeller, görüntü kümeleri içindeki kalıpları etkili bir şekilde tanımladı ve bu kalıpları yeni örnekleri çözmek için uygulama becerisini gösterdi. Bu onların görsel anlama ve akıl yürütme kapasitelerini gösterir.

Sonuçlar gösteriyor ki GPT-4 Doğru yanıtların yalnızca %2'nin biraz üzerinde olmasıyla doğrulukta bir azalma görüldü. Bu özel testin öncelikle modelin doğal matematiksel yeteneklerini sergilemek yerine verileri geri çağırma kapasitesini değerlendirdiğini belirtmek önemlidir. Model, özellikle asal sayılar söz konusu olduğunda hesaplama doğrulama ve çıkarım yapma yeteneğinden yoksun olduğundan, görev hafızanın geri çağrılması etrafında dönüyor.

ChatGPT Haziran ayına kadar performans ölçütlerinde önemli bir büyüme gösterdi ve on katın üzerinde kayda değer bir gelişme sergiledi. Çalışma, bu gelişmeye katkıda bulunan belirli faktörleri derinlemesine incelemese de, ChatGPTmatematiksel akıl yürütme ve problem çözme yeteneklerindeki ilerleme.

Çalışma, oluşturulan kodun kalitesini veya doğruluğunu değerlendirmedi. Bunun yerine, modeller işlevsel doğruluklarını garanti etmeden kod parçacıkları sunan daha "özel" bir davranış sergiliyor gibi görünüyordu.
İlgili bağlantılar: 10'ün En İyi 2023 Yapay Zeka Fotoğraf İyileştiricisi

Kalitesi GPT-4 ve ChatGPT programlama yeteneklerinin bir analizinden sonra sorgulanmıştır. Ancak daha yakından bakıldığında, ilk izlenimlerle çelişen bazı büyüleyici nüanslar ortaya çıkıyor.

Yazarlar, kodun doğruluğunu doğrulamadı veya yürütmedi; değerlendirmeleri yalnızca Python kodu olarak geçerliliğine dayanıyordu. Ek olarak, modeller, istemeden kodun yürütülmesini engelleyen bir dekoratör kullanarak belirli bir kod çerçeveleme tekniğini öğrenmiş gibi görünüyordu.

Sonuç olarak, ne sonuçların ne de deneyin kendisinin model bozulmasının kanıtı olarak kabul edilemeyeceği ortaya çıkıyor. Bunun yerine, modeller, eğitimlerindeki varyasyonları potansiyel olarak yansıtan, yanıt oluşturmaya yönelik farklı bir yaklaşım sergiliyor.

Programlama ve matematik becerilerinin incelenmesi GPT-4 ve ChatGPT ilginç bulgulara ışık tuttu. İlk varsayımların aksine, modeller belirli alanlarda dikkate değer gelişmeler gösterirken diğerlerinde davranışsal değişiklikler sergiledi.

Programlama görevleri söz konusu olduğunda, her iki model de "yanlış" istemlere yanıt vermede bir azalma gösterdi. GPT-4 bu gibi durumlarda dört kattan fazla bir azalma sergiliyor. Ek olarak, Görsel Muhakeme görevinde, yanıtların kalitesi her iki model için de birkaç yüzde puanı arttı. Bu gözlemler performanstaki bozulmadan ziyade ilerlemeyi göstermektedir.

Bununla birlikte, matematiksel becerilerin değerlendirilmesi merak uyandıran bir unsur sunar. Modeller, tutarlı bir "evet" yanıtını gösteren yanıtlar olarak tutarlı bir şekilde asal sayılar sağladı. Yine de, örneğe bileşik sayılar eklendiğinde, modellerin davranışlarını değiştirdiği ve "hayır" yanıtları vermeye başladığı, kalitenin düşmesinden çok belirsizliğe işaret ettiği ortaya çıktı. Testin kendisi tuhaf ve tek taraflıve sonuçları, kalitedeki düşüşten ziyade model davranışındaki değişimlere bağlanabilir.

Tarayıcı tabanlı sürümlerin değil, API sürümlerinin test edildiğini unutmamak önemlidir. Tarayıcıdaki modellerin kaynakları optimize etmek için ayarlamalar yapmış olması mümkün olsa da, ekteki çalışma bu durumu sağlamamaktadır. defiBu hipotezi kesin olarak kanıtlayın. Bu tür değişimlerin etkisi, gerçek model düşüşleriyle karşılaştırılabilir olabilir ve bu da belirli çalışma koşullarına güvenen kullanıcılar için potansiyel zorluklara yol açabilir. istemleri ve birikmiş deneyim.

Halinde GPT-4 API uygulamalarında davranıştaki bu sapmaların somut sonuçları olabilir. Belirli bir kullanıcının ihtiyaçlarına ve görevlerine göre geliştirilen kod, modelin davranışında değişiklik olması durumunda artık amaçlandığı gibi çalışmayabilir.

Kullanıcıların benzer test uygulamalarını iş akışlarına dahil etmeleri önerilir. Kullanıcılar, bir dizi bilgi istemi, eşlik eden metinler ve beklenen sonuçlar oluşturarak, beklentileri ile modelin yanıtları arasındaki tutarlılığı düzenli olarak kontrol edebilir. Herhangi bir sapma tespit edilir edilmez, durumu düzeltmek için uygun önlemler alınabilir.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hot Stories
Bültenimize Katılın.
En Yeni Haberler

Volatilite Ortasında Bitcoin ETF'lerine Yönelik Kurumsal İştah Artıyor

13F başvuruları aracılığıyla yapılan açıklamalar, önemli kurumsal yatırımcıların Bitcoin ETF'leriyle uğraştığını ortaya koyuyor ve Bitcoin ETF'lerinin artan bir şekilde kabul edildiğinin altını çiziyor.

bilmek Daha

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
BLOCKCHANCE ve CONF3RENCE Almanya'nın En Büyükleri için Birleşiyor Web3 Dortmund'daki konferans
İşletme Piyasalar Yazılım Hikayeler ve İncelemeler Teknoloji
BLOCKCHANCE ve CONF3RENCE Almanya'nın En Büyükleri için Birleşiyor Web3 Dortmund'daki konferans
Mayıs 9, 2024
NuLink Bybit'te Başlıyor Web3 İDO Platformu. Abonelik Aşaması 13 Mayıs'a Kadar Uzatılıyor
Piyasalar Haber Raporu Teknoloji
NuLink Bybit'te Başlıyor Web3 İDO Platformu. Abonelik Aşaması 13 Mayıs'a Kadar Uzatılıyor
Mayıs 9, 2024
UXLINK ve Binance Yeni Kampanyada İşbirliği Yaparak Kullanıcılara 20 Milyon UXUY Puanı Sunuyor Airdrop "Rewards"
Piyasalar Haber Raporu Teknoloji
UXLINK ve Binance Yeni Kampanyada İşbirliği Yaparak Kullanıcılara 20 Milyon UXUY Puanı Sunuyor Airdrop "Rewards"
Mayıs 9, 2024
Side Protokolü, Teşvik Edilmiş Test Ağını Başlatıyor ve Kullanıcıların SIDE Puanları Kazanmasına Olanak Sağlayan Insider Puan Sistemini Tanıtıyor
Piyasalar Haber Raporu Teknoloji
Side Protokolü, Teşvik Edilmiş Test Ağını Başlatıyor ve Kullanıcıların SIDE Puanları Kazanmasına Olanak Sağlayan Insider Puan Sistemini Tanıtıyor
Mayıs 9, 2024
CRYPTOMERIA LABS PTE. LTD.