Haber Raporu SMW Teknoloji
Mayıs 30, 2023

GPT-4ABD Baro Sınavındaki Performansı İddialarıyla Çelişiyor

Kısaca

Muayenesi GPT-4Tekdüzen Baro Sınavı'ndaki performansı, tahmini ve fiili performans arasında bir tutarsızlık olduğunu ortaya çıkardı ve şeffaf değerlendirme prosedürlerinin ve erişilebilir verilerin önemini vurguladı.

OpenAI güven kazanmak ve güvenilirliği sağlamak için tutarsızlıkları ele almaya ve yapay zeka modeli değerlendirmesine daha kapsayıcı ve güvenilir bir yaklaşım geliştirmeye teşvik edilir.

Yakın zamanda yapılan bir incelemede GPT-4Üniforma Baro Sınavındaki performansı (EBU), doğruluğu hakkında şüpheler ortaya çıktı OpenAI'ın modelin başarı oranıyla ilgili iddiaları. İlk iddianın aksine GPT-4 Bireylerin %90'ından daha iyi performans gösteriyor, bulgular, AI modelinin tahmini ve gerçek performansı arasında önemli bir tutarsızlık olduğunu göstermektedir. Bu açıklama, şeffaf değerlendirme prosedürlerinin ve bu tür iddiaları doğrulamak için erişilebilir verilerin önemini vurgulamaktadır.

GPT-4ABD Baro Sınavındaki Performansı İddialarıyla Çelişiyor
@Midjourney

Sınav, gerçek yetenekleri belirlemek için çeşitli faktörlere odaklandı. GPT-4. ilk olarak, analiz Illinois'deki Şubat sınavlarının sonuçları şunu ortaya çıkardı: GPT-4puanları yaklaştı 90. persentil. Ancak, bu puanların daha önce Temmuz sınavında başarısız olan ve dolayısıyla genel ortalamanın altında puan alan tekrar girenlerden büyük ölçüde etkilendiği görülmüştür.

Ayrıca, Temmuz sınavının sonuçları çelişkili OpenAI'nin iddiaları bunu ortaya koyuyor GPT-4 sadece daha iyi çalmak İnsanların %68'i ve makalelerin %48'i. GPT-4Farklı dönemlerdeki çeşitli testlerden elde edilen resmi veriler dikkate alındığında, ilk kez katılanlara (yeniden katılımlar hariç) karşı performansı 63'üncü yüzdelik dilimde değerlendirildi; makalelerin puanı ise 41'inci yüzdelik dilimde önemli ölçüde daha düşüktü.

Lisanslı kişiler ve lisans almayı bekleyenler de dahil olmak üzere, sınavı geçenlerin performansı incelenerek ek bir bakış açısı kazanıldı. Bu konuda, GPT-4'nin genel performansı 48. yüzdelik dilimde yer alırken, makaleler 15. yüzdelik dilimde daha da kötü durumdaydı.

Bu bulgular rahatsız edici olsa da, inceleme sürecinde insan hatası olasılığını dikkate almak kritik öneme sahiptir. Makalenin yazarı, araştırmacıların değerlendirme yapmak için kullandıkları örneklemi anlamanın önemini vurgulamaktadır. GPT-4performansı. Özellikle toplu biçimde resmi verilerin bulunmaması, yüzdelik dilimlerin adil bir şekilde karşılaştırılmasını ve değerlendirilmesini zorlaştırmaktadır. Tüm paydaşlar tarafından değerlendirilebilecek açık ve erişilebilir değerlendirme tekniklerinin oluşturulması kritik öneme sahiptir.

Bu endişelere cevaben, OpenAI çelişkileri gidermesi isteniyor ve daha fazla içgörü sağlamak değerlendirme sürecine girer. Şeffaflık ve açıklık, güven kazanmak ve hukuk gibi yüksek riskli alanlarda yapay zeka modellerinin güvenilirliğini sağlamak için çok önemlidir.

Makalenin, elde edilen spesifik puanı tartışmadığına dikkat edilmelidir. GPT-4298 olduğu belirtiliyor. Bu puanın öneminin değerlendirilmesi, kullanılan derecelendirme sisteminin bağlamsal olarak anlaşılmasını gerektiriyor. Tıpkı bir çocuğun okuldan B notuyla eve dönmesinin ya kutlamaya ya da hayal kırıklığına sebep olabilmesi gibi, GPT-4puanı kullanılan ölçeğe bağlıdır.

Değerlendirmesi GPT-4baro sınavındaki performansı ciddi endişeler uyandırıyor doğruluğu hakkında OpenAI' nin ilk iddiaları. Tahmini ve gerçek performans arasındaki fark, net değerlendirme sistemlerinin ve kolay erişilebilir verilerin önemini vurgulamaktadır. OpenAI bu zorlukları ele almaya ve daha kapsayıcı ve yapay zekaya güvenilir yaklaşım model değerlendirmesi.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha

Samourai Cüzdan Kurucuları, Darknet Anlaşmalarında 2 Milyar Dolarlık Kolaylık Sağlamakla Suçlanıyor

Samourai Cüzdan kurucularının tutuklanması, sektör için kayda değer bir gerilemeyi temsil ediyor ve ısrarcı tutumun altını çiziyor ...

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
BNB Chain İkinci Sezonunu Açıkladı Airdrop İttifak Programı, Topluluk Ödülleri İçin Yedi Yeni Projeyle Ortak Oldu
Piyasalar Haber Raporu Teknoloji
BNB Chain İkinci Sezonunu Açıkladı Airdrop İttifak Programı, Topluluk Ödülleri İçin Yedi Yeni Projeyle Ortak Oldu
30 Nisan 2024
dWallet Ağı, Yerel Çoklu Zincirle Geliştirmek İçin Monad'ı Entegre Ediyor DeFi Uygulama Alanı
İşletme Haber Raporu Teknoloji
dWallet Ağı, Yerel Çoklu Zincirle Geliştirmek İçin Monad'ı Entegre Ediyor DeFi Uygulama Alanı
30 Nisan 2024
Animoca Markaları, Bitcoin Alemine Genişleyen Opal Bitcoin Projesini Başlatmak İçin Darewise ile İşbirliği Yapıyor
İşletme Haber Raporu Teknoloji
Animoca Markaları, Bitcoin Alemine Genişleyen Opal Bitcoin Projesini Başlatmak İçin Darewise ile İşbirliği Yapıyor
30 Nisan 2024
HashKey Grubu, Bosera HashKey Bitcoin ETF İçin Karbon Nötrlüğüne Ulaşmak İçin GreenBTC.Club ile Güçlerini Birleştiriyor
İşletme Haber Raporu Teknoloji
HashKey Grubu, Bosera HashKey Bitcoin ETF İçin Karbon Nötrlüğüne Ulaşmak İçin GreenBTC.Club ile Güçlerini Birleştiriyor
30 Nisan 2024
CRYPTOMERIA LABS PTE. LTD.