Haber Raporu Teknoloji
Temmuz 04, 2023

Geliştiriciler Yeni Bir Yeniliği Tanıtıyor GPT-4İnsan Değerlendirmeleriyle %80 Anlaşma Sağlayan Yüksek Lisans'ları Kendi Kendine Değerlendirmeye Dayalı Yöntem

Kısaca

LLM değerlendirme yöntemi, dil modellerini değerlendirmede doğruluğu ve adaleti geliştirmek için gelişmiştir.

Yazarlar bir GPT-4 Veri toplamak ve tahmin yanlılığı, ayrıntı tercihi, kendini öne sürme yanlılığı ve sınırlı muhakeme yeteneği gibi zorlukları ele almak için on binlerce gerçek insan yanıtını içeren karşılaştırma yaklaşımı.

tartışan son bir makale dizisinde LLM'lerin değerlendirilmesiölçeklenebilirlik ve maliyet etkinliğinin benimsenmesine yol açtığı vurgulandı. GPT-4 karşılaştırma yaklaşımı. Bu, aynı soruya verilen farklı yanıtları değerlendirmek için bir modelin kullanılmasını ve bir sıralama sistemi oluşturmak için en iyi yanıtın seçilmesini içeriyordu. Daha önce de belirtildiği gibi, bu yöntemin dikkate değer sınırlamaları vardı. Yaratıcıları LMSYS.org derecelendirmesiBu yaklaşımı birkaç ay önce başlatan , şimdi onu yeni bir değerlendirme yöntemiyle değiştirmeye karar verdi.

Geliştiriciler Yeni Bir Yeniliği Tanıtıyor GPT-4İnsan Değerlendirmeleriyle %80 Anlaşma Sağlayan Yüksek Lisans'ları Kendi Kendine Değerlendirmeye Dayalı Yöntem
kredi: Metaverse Post (mpost.io)

Ekip, çalışmaları boyunca farklı yanıtlara ilişkin tercihleri ​​karşılaştıran on binlerce gerçek insan yanıtını topladı. Bu kapsamlı veri seti, her bir yanıtla ilgili artı ve eksileri daha doğru bir şekilde anlamalarını sağladı. Yeni değerlendirme yöntemi hala aşağıdakilere dayanmaktadır: GPT-4otomasyon ve ölçeklenebilirlik kullanarak. Uygun fiyata herkesin kullanımına açıktır.

Değerlendirme sürecinde adaleti sağlamak için GPT-4, aşağıdaki zorluklar ele alındı:

  1. Konum tercihinden kaynaklanan tahmin yanlılığı.
  2. Ayrıntıya yatkınlık, kalitelerini dikkate almadan daha uzun cevapları tercih etme.
  3. Tercihlerin modelin kendi cevaplarına veya eğitimli modeller onlara.
  4. Matematiksel ve mantıksal soruları değerlendirirken sınırlı muhakeme yeteneği.
İşte değerlendirilen 80 sorudan bazı örnekler. Üç grubun her biri için aynı sorunun iki bölümü vardır.
Özel bir web sitesinde tüm soruları, tüm model yanıtlarını ve 20'den fazla model arasındaki ikili karşılaştırmaları görüntüleyebilirsiniz (https://huggingface.co/spaces/lmsys/mt-bench). Her zaman olduğu gibi Akıl Yürütme ve Kodlama bölümleri en büyüleyici örnekleri içermektedir.

Bu sorunları hafifletmek için çeşitli çözümler uyguladıktan sonra yazarlar, aşağıdaki gibi güçlü dil modellerinin ortaya çıktığını keşfettiler: GPT-4 Değerlendirmelerde %80'in üzerinde anlaşmaya vararak insan tercihleriyle iyi uyum sağlar. Bu, modelin değerlendirmesinin, vakaların %80'inde insan derecelendirmeleriyle örtüştüğü anlamına gelir; bu, aynı görev üzerinde çalışan iki farklı insan değerlendiriciyle karşılaştırılabilecek düzeyde bir anlaşmadır. OpenAI yakın işbirliği içinde olan bir makalenin ortak yazarlarının bile vakaların %82-86'sında hemfikir olduğunu bildirmiştir.

Bu kıyaslama, modellerin çeşitli soru gruplarında ne kadar keskin bir şekilde farklılaştığını göstermektedir. En büyük boşluk, model seviyesinin çok daha ileri olduğu akıl yürütme ve kodlamadadır. GPT-4. Ancak modeller hem rol oynamada hem de sıradan metinlerin yazılmasında kullanılabilir. Yazarlar burada 1.3 ila 7 milyar parametre arasında değişen boyutlarda yeni Vicuna v33 modellerini yayınladılar https://github.com/lm-sys/FastChat/tree/main#vicuna-weights.

Bunun "mükemmel bir değerlendirme yöntemi" olmasa da önceki yöntemlere göre önemli bir gelişmeyi temsil ettiğini belirtmek önemlidir. Yazarlar artık veri setlerini 1000 yerine 80 soru içerecek şekilde genişletmeyi hedefliyorlar ve önyargıları azaltmak için istemleri iyileştirmek üzerinde aktif olarak çalışıyorlar. GPT-4 tahminler. İki objektif değerlendirme daha düşünüyorlar: biri Elo puanları kullanılarak gerçek kişilerin (modellerin yarıştığı "arena" olarak bilinir) oy vermesine dayanıyor, diğeri ise tahminlere dayanıyor. MMLU kıyaslaması.

Bir başka ilgi çekici gerçek ise, GPT-4 ikinci soruya yanıt verirken kalitesini koruyan tek modeldir. Bu, iki nedenden dolayı biraz tartışmalıdır: 1) Model hala kendini değerlendiriyor 2) Fark önemsiz olsa da, diğer modellerin çok dönüşlü diyalogları ve talimatları takip etmede ne kadar yetersiz olduğunu gösteriyor.

Model Karşılaştırmasının Geliştirilmesi GPT-4

Son zamanlarda Vicuna, Koala ve Dolly gibi çeşitli dil modellerinin ortaya çıkmasıyla birlikte, modelleri karşılaştırma uygulaması GPT-4 popülerlik kazanmıştır. Aynı soruya biri A modelinden, diğeri B modelinden olmak üzere iki yanıtın eklendiği benzersiz bir bilgi istemi sağlanır. Daha sonra değerlendiricilerden cevapları 1'den 8'e kadar bir ölçekte derecelendirmeleri istenir; 1, A modelinin önemli ölçüde daha iyi olduğunu, 8 B modeli için ve 4-5 beraberliği temsil eder. 2-3 ve 6-7 puanlar "daha iyi bir model"i gösterir.

A ve B modellerini değiştirmenin puanları önemli ölçüde etkilememesi (örneğin, 7'nin 2 olması, 8'in 1 olması) ve bir modelin tutarlı üstünlüğünün zafere yol açması mantıklı görünebilir. Bununla birlikte, modelin model A'ya (bir) daha yüksek puanlar verme eğiliminde olduğu "konumsal yanlılık" olgusu ortaya çıkar. Bilgi istemi desenleri rastgele karıştırıldığından, bu eğilimin 4-5 orta nokta civarında simetri sergilemesi beklenir. İnsan değerlendirmesi, adaleti sağlamak için bu önyargıyı açıklar.

Bir de anlayışlı çalışma HuggingFace ekibi tarafından gerçekleştirilen, dört modelin yanıtlarını 329 farklı soru için değerlendirdiler. Araştırmada ortaya çıkan ilginç bulgular arasında şunlar da yer aldı:

  1. İkili karşılaştırmalara dayalı dört modelin sıralaması, insan değerlendirmesi ve değerlendirme arasında tutarlıydı. GPT-4, farklı Elo derecelendirme boşlukları gözlemlenmesine rağmen. Bu, modelin iyi ve kötü yanıtları ayırt edebildiğini ancak insan değerlendirmeleriyle daha az uyumlu olan sınır durumlarıyla mücadele ettiğini gösteriyor.
  2. İlginç bir şekilde, model diğer modellerden, özellikle de bu konuda eğitim almış olanlardan gelen yanıtları derecelendirdi. GPT-4 Cevaplar, gerçek insan cevaplarından daha yüksektir.
  3. arasında yüksek bir korelasyon (Pearson=0.96) vardır. GPT-4 yanıttaki benzersiz jetonların sayısı ve puanı. Bu, modelin cevabın kalitesini değerlendirmediğini ve ihtiyatlı yorum ihtiyacını vurguladığını göstermektedir.

Bu bulgular, kullanım sırasında dikkatli değerlendirmenin önemini vurgulamaktadır. GPT-4 Model karşılaştırması için. Model, yanıtlar arasında bir dereceye kadar ayrım yapabilse de, özellikle incelikli senaryolarda değerlendirmeleri her zaman insan yargılarıyla mükemmel şekilde uyum sağlamayabilir. Yalnızca şunlara güvenirken dikkatli olmak ve ek faktörleri dikkate almak çok önemlidir. GPT-4 puanlar. Araştırmacılar, istemleri iyileştirerek ve çeşitli değerlendirmeleri birleştirerek, değerlendirmelerin güvenilirliğini ve doğruluğunu artırmayı amaçlamaktadır. GPT-4 tahmin etmektedir.

Makale desteğiyle yazılmıştır. telgraf kanalı topluluğu.

AI hakkında daha fazlasını okuyun:

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Hot Stories
Bültenimize Katılın.
En Yeni Haberler

Ripple'dan Büyük Yeşil DAO'ya: Kripto Para Projeleri Hayırseverliğe Nasıl Katkıda Bulunuyor?

Hayırsever amaçlar için dijital para birimlerinin potansiyelinden yararlanan girişimleri keşfedelim.

bilmek Daha

AlphaFold 3, Med-Gemini ve diğerleri: Yapay Zekanın 2024'te Sağlık Hizmetlerini Dönüştürme Yolu

Yapay zeka, yeni genetik korelasyonların ortaya çıkarılmasından robotik cerrahi sistemlerin güçlendirilmesine kadar sağlık hizmetlerinde çeşitli şekillerde kendini gösteriyor...

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Worldcoin'in WLD Tokeninin Önümüzdeki Aylarda Daha Fazla Kilit Açılmasıyla Agresif Satış Baskısıyla Karşılaşacağı Uyardı DeFi2 Bybit Trader
Piyasalar Haber Raporu Teknoloji
Worldcoin'in WLD Tokeninin Önümüzdeki Aylarda Daha Fazla Kilit Açılmasıyla Agresif Satış Baskısıyla Karşılaşacağı Uyardı DeFi2 Bybit Trader
Mayıs 14, 2024
Kripto Borsası Coinbase Sistem Arızası Yaşadı, Kullanıcıların Fonları Güvenli Wile Şirketi Sorunu Araştırıyor
Piyasalar Haber Raporu Teknoloji
Kripto Borsası Coinbase Sistem Arızası Yaşadı, Kullanıcıların Fonları Güvenli Wile Şirketi Sorunu Araştırıyor
Mayıs 14, 2024
Ripple'dan Büyük Yeşil DAO'ya: Kripto Para Projeleri Hayırseverliğe Nasıl Katkıda Bulunuyor?
Analiz Kripto Wiki İşletme Eğitim Yaşam Tarzı Piyasalar Yazılım Teknoloji
Ripple'dan Büyük Yeşil DAO'ya: Kripto Para Projeleri Hayırseverliğe Nasıl Katkıda Bulunuyor?
Mayıs 13, 2024
AlphaFold 3, Med-Gemini ve diğerleri: Yapay Zekanın 2024'te Sağlık Hizmetlerini Dönüştürme Yolu
AI Wiki Analiz özet Görüş İşletme Piyasalar Haber Raporu Yazılım Hikayeler ve İncelemeler Teknoloji
AlphaFold 3, Med-Gemini ve diğerleri: Yapay Zekanın 2024'te Sağlık Hizmetlerini Dönüştürme Yolu
Mayıs 13, 2024
CRYPTOMERIA LABS PTE. LTD.