Geliştiriciler Yeni Bir Yeniliği Tanıtıyor GPT-4İnsan Değerlendirmeleriyle %80 Anlaşma Sağlayan Yüksek Lisans'ları Kendi Kendine Değerlendirmeye Dayalı Yöntem
Kısaca
LLM değerlendirme yöntemi, dil modellerini değerlendirmede doğruluğu ve adaleti geliştirmek için gelişmiştir.
Yazarlar bir GPT-4 Veri toplamak ve tahmin yanlılığı, ayrıntı tercihi, kendini öne sürme yanlılığı ve sınırlı muhakeme yeteneği gibi zorlukları ele almak için on binlerce gerçek insan yanıtını içeren karşılaştırma yaklaşımı.
tartışan son bir makale dizisinde LLM'lerin değerlendirilmesiölçeklenebilirlik ve maliyet etkinliğinin benimsenmesine yol açtığı vurgulandı. GPT-4 karşılaştırma yaklaşımı. Bu, aynı soruya verilen farklı yanıtları değerlendirmek için bir modelin kullanılmasını ve bir sıralama sistemi oluşturmak için en iyi yanıtın seçilmesini içeriyordu. Daha önce de belirtildiği gibi, bu yöntemin dikkate değer sınırlamaları vardı. Yaratıcıları LMSYS.org derecelendirmesiBu yaklaşımı birkaç ay önce başlatan , şimdi onu yeni bir değerlendirme yöntemiyle değiştirmeye karar verdi.
Ekip, çalışmaları boyunca farklı yanıtlara ilişkin tercihleri karşılaştıran on binlerce gerçek insan yanıtını topladı. Bu kapsamlı veri seti, her bir yanıtla ilgili artı ve eksileri daha doğru bir şekilde anlamalarını sağladı. Yeni değerlendirme yöntemi hala aşağıdakilere dayanmaktadır: GPT-4otomasyon ve ölçeklenebilirlik kullanarak. Uygun fiyata herkesin kullanımına açıktır.
Değerlendirme sürecinde adaleti sağlamak için GPT-4, aşağıdaki zorluklar ele alındı:
- Konum tercihinden kaynaklanan tahmin yanlılığı.
- Ayrıntıya yatkınlık, kalitelerini dikkate almadan daha uzun cevapları tercih etme.
- Tercihlerin modelin kendi cevaplarına veya eğitimli modeller onlara.
- Matematiksel ve mantıksal soruları değerlendirirken sınırlı muhakeme yeteneği.
Bu sorunları hafifletmek için çeşitli çözümler uyguladıktan sonra yazarlar, aşağıdaki gibi güçlü dil modellerinin ortaya çıktığını keşfettiler: GPT-4 Değerlendirmelerde %80'in üzerinde anlaşmaya vararak insan tercihleriyle iyi uyum sağlar. Bu, modelin değerlendirmesinin, vakaların %80'inde insan derecelendirmeleriyle örtüştüğü anlamına gelir; bu, aynı görev üzerinde çalışan iki farklı insan değerlendiriciyle karşılaştırılabilecek düzeyde bir anlaşmadır. OpenAI yakın işbirliği içinde olan bir makalenin ortak yazarlarının bile vakaların %82-86'sında hemfikir olduğunu bildirmiştir.
Bunun "mükemmel bir değerlendirme yöntemi" olmasa da önceki yöntemlere göre önemli bir gelişmeyi temsil ettiğini belirtmek önemlidir. Yazarlar artık veri setlerini 1000 yerine 80 soru içerecek şekilde genişletmeyi hedefliyorlar ve önyargıları azaltmak için istemleri iyileştirmek üzerinde aktif olarak çalışıyorlar. GPT-4 tahminler. İki objektif değerlendirme daha düşünüyorlar: biri Elo puanları kullanılarak gerçek kişilerin (modellerin yarıştığı "arena" olarak bilinir) oy vermesine dayanıyor, diğeri ise tahminlere dayanıyor. MMLU kıyaslaması.
Model Karşılaştırmasının Geliştirilmesi GPT-4
Son zamanlarda Vicuna, Koala ve Dolly gibi çeşitli dil modellerinin ortaya çıkmasıyla birlikte, modelleri karşılaştırma uygulaması GPT-4 popülerlik kazanmıştır. Aynı soruya biri A modelinden, diğeri B modelinden olmak üzere iki yanıtın eklendiği benzersiz bir bilgi istemi sağlanır. Daha sonra değerlendiricilerden cevapları 1'den 8'e kadar bir ölçekte derecelendirmeleri istenir; 1, A modelinin önemli ölçüde daha iyi olduğunu, 8 B modeli için ve 4-5 beraberliği temsil eder. 2-3 ve 6-7 puanlar "daha iyi bir model"i gösterir.
Bir de anlayışlı çalışma HuggingFace ekibi tarafından gerçekleştirilen, dört modelin yanıtlarını 329 farklı soru için değerlendirdiler. Araştırmada ortaya çıkan ilginç bulgular arasında şunlar da yer aldı:
- İkili karşılaştırmalara dayalı dört modelin sıralaması, insan değerlendirmesi ve değerlendirme arasında tutarlıydı. GPT-4, farklı Elo derecelendirme boşlukları gözlemlenmesine rağmen. Bu, modelin iyi ve kötü yanıtları ayırt edebildiğini ancak insan değerlendirmeleriyle daha az uyumlu olan sınır durumlarıyla mücadele ettiğini gösteriyor.
- İlginç bir şekilde, model diğer modellerden, özellikle de bu konuda eğitim almış olanlardan gelen yanıtları derecelendirdi. GPT-4 Cevaplar, gerçek insan cevaplarından daha yüksektir.
- arasında yüksek bir korelasyon (Pearson=0.96) vardır. GPT-4 yanıttaki benzersiz jetonların sayısı ve puanı. Bu, modelin cevabın kalitesini değerlendirmediğini ve ihtiyatlı yorum ihtiyacını vurguladığını göstermektedir.
Bu bulgular, kullanım sırasında dikkatli değerlendirmenin önemini vurgulamaktadır. GPT-4 Model karşılaştırması için. Model, yanıtlar arasında bir dereceye kadar ayrım yapabilse de, özellikle incelikli senaryolarda değerlendirmeleri her zaman insan yargılarıyla mükemmel şekilde uyum sağlamayabilir. Yalnızca şunlara güvenirken dikkatli olmak ve ek faktörleri dikkate almak çok önemlidir. GPT-4 puanlar. Araştırmacılar, istemleri iyileştirerek ve çeşitli değerlendirmeleri birleştirerek, değerlendirmelerin güvenilirliğini ve doğruluğunu artırmayı amaçlamaktadır. GPT-4 tahmin etmektedir.
Makale desteğiyle yazılmıştır. telgraf kanalı topluluğu.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.