OpenAI: Yeni Süreç Denetimli Ödül Modellemesi, Yapay Zeka Akıl Yürütmesini İyileştiriyor
Kısaca
OpenAI'nin süreç denetimli ödül modellemesi (PRM), yapay zeka modellerinin ara adımlarını ve mantığını değerlendirmeyi amaçlayarak performansın ve ölçümlerin iyileştirilmesini sağlar.
OpenAI süreç denetimli ödül modellemesinde çığır açan çalışmalarıyla bir kez daha yapay zeka topluluğunun dikkatini çekti (PRM'ler). Bu yenilikçi yaklaşım, yapay zeka modellerinin ara adımlarını ve mantığını değerlendirerek gelişmiş performans ve metriklere yol açmayı amaçlıyor.
Tavsiye edilen: ChatGPT Ticareti Kolaylaştırarak Wall Street'i Değiştirebilir |
İnsan geribildiriminden öğrenilen geleneksel pekiştirmeli öğrenmede (RLHF), model geri bildirimi genellikle model tarafından oluşturulan genel sonuca göre verilir. Fakat, OpenAI'nin yeni araştırması, modelin üstlendiği bireysel adımları ve akıl yürütme süreçlerini değerlendirme fikrini araştırıyor. Bunu yaparak daha ayrıntılı değerlendirmeler ve geri bildirimler sağlayabilirler.
Bu sorunun üstesinden gelmek için, OpenAI birden fazla eylem gerektiren seçilmiş matematik problemleri. Ayrı bir model birincil model tarafından yapılan herhangi bir hatalı yargıyı belirlemek için bir eleştirmen olarak hareket ederek, ara adımları etkili bir şekilde değerlendirmek üzere eğitildi. Bu süreç yalnızca genel performansı iyileştirmekle kalmaz, aynı zamanda modelin yeteneklerini değerlendirmek için kullanılan ölçümleri de geliştirir.
OpenAI titizlikle seçilmiş bir veri kümesinin yayınlanmasıyla bu alanda önemli ilerlemeler kaydetmiştir: 800,000 işaretli yargı. Her yargı, matematik problemlerini çözmede ayrı bir aşamayı temsil eder ve manuel olarak oluşturulmuştur. Bu, özveri ve kaynak düzeyini vurgular OpenAI yüksek kaliteli veri kümeleri geliştirmeye yatırım yapıyor, programlama veya açık uçlu sorular gibi diğer alanlar için toplanan verilerin hacmi hakkında sorular soruyor.
Eğitimi GPT-4, OpenAI'nin son yinelemesi GPT dizi zaten iyi gidiyor. RLHF bileşeni mevcut deneylere dahil edilmemiş olsa da, saf bir dil modeli kullanılmaktadır. Özellikle, OpenAI birden fazla versiyonu olduğundan bahsediyor GPT-4, eğitim için önemli ölçüde daha az kaynak gerektiren en küçük sürümle bile - yaklaşık 200 kat daha az.
tarafından paylaşılan ilginç bir örnek OpenAI modelin nasıl değerlendirildiğini gösterir her bir karar adımı. Gönderide yer alan bir ekran görüntüsünde, çözümdeki hatalar işaretlenir ve kırmızı renkle vurgulanarak en düşük doğruluk puanı verilir. Bu gösteri, modelin akıl yürütme yeteneğini vurguluyor ve karar verme sürecine ilişkin değerli bilgiler sağlıyor. OpenAI ayrıca kitle kaynakçıların çalışmalarına katkıda bulunmaları ve onlardan faydalanmaları için fırsatlar sunarak işaretlemelere yönelik talimatlar da sağladı.
As OpenAI Yapay Zeka araştırmasının sınırlarını zorlamaya devam ediyor; model muhakeme ve süreç denetimli ödül modellemeye odaklanmaları, gelişmiş Yapay Zeka yetenekleri için yeni olanaklar getiriyor. Bu son atılım, model performansını iyileştirme konusundaki kararlılıklarını ortaya koyuyor ve bu alanda daha fazla ilerlemeye kapı açıyor.
- Son zamanlarda, Apple'ın çalışanların kullanımını kısıtladığı bildiriliyor ChatGPT ve gizlilik endişeleri nedeniyle yapay zeka destekli diğer sohbet robotları. Wall Street Journal, işçilerin GitHub'ın yapay zeka aracı Copilot'u kullanmasının da kısıtlandığını bildirdi. kullanıcıların otomatik olarak yazılım kodu yazmasını sağlar. ChatGPT tarafından geliştirilen yapay zeka destekli bir sohbet robotudur. OpenAIgizlilik ihlalleri nedeniyle eleştiriliyor.
AI hakkında daha fazlasını okuyun:
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.