Araştırmacılar Çoğaltıldı OpenAIRLHF'de Yakınsal Politika Optimizasyonuna (PPO) Dayalı Çalışma
İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF), aşağıdaki gibi eğitim sistemlerinin ayrılmaz bir parçasıdır: ChatGPTve başarıya ulaşmak için özel yöntemlere dayanır. Bu yöntemlerden biri olan Yakınsal Politika Optimizasyonu (PPO), başlangıçta tasarlanmış duvarları içinde OpenAI İlk bakışta PPO, uygulamadaki basitlik vaadiyle ve modelde ince ayar yapmak için gereken nispeten az sayıda hiper parametreyle göze çarpıyordu. Ancak dedikleri gibi şeytan ayrıntıda gizlidir.
Geçtiğimiz günlerde "" başlıklı bir blog yazısı yayınlandı.Yakınsal Politika Optimizasyonunun 37 Uygulama Detayı” PPO'nun (ICLR konferansı için hazırlanan) inceliklerine ışık tutuyor. Tek başına isim, bu sözde basit yöntemin uygulanmasında karşılaşılan zorluklara işaret ediyor. Şaşırtıcı bir şekilde, yazarların gerekli tüm bilgileri toplaması ve sonuçları yeniden üretmesi üç yıl sürdü.
içindeki kod OpenAI veri deposu sürümler arasında önemli değişikliklere uğradı, bazı yönler açıklanmadan kaldı ve hata olarak ortaya çıkan tuhaflıklar bir şekilde sonuç verdi. Ayrıntılara girdiğinizde PPO'nun karmaşıklığı açıkça ortaya çıkıyor ve derin bir anlayış veya kişisel gelişimle ilgilenenler için şiddetle tavsiye edilen bir video özeti mevcut.
Ancak hikaye burada bitmiyor. Aynı yazarlar konuyu tekrar incelemeye karar verdiler. openai/lm-insan-tercihleri deposu PPO'yu kullanarak dil modellerinin insan tercihlerine göre ince ayarlanmasında önemli bir rol oynayan 2019'dan itibaren. Bu depo, bu alandaki ilk gelişmelere işaret ediyordu. ChatGPT. Son blog yazısı, “PPO ile RLHF'nin N Uygulama Detayları" yakından kopyalanıyor OpenAI'nin çalışması ancak eski TensorFlow yerine PyTorch ve modern kütüphaneleri kullanıyor. Bu geçiş, Adam optimizasyon aracının çerçeveler arasında uygulanmasındaki farklılıklar gibi kendi zorluklarını da beraberinde getirdi; bu da eğitimin ayarlamalar olmadan tekrarlanmasını imkansız hale getiriyordu.
Belki de bu yolculuğun en ilgi çekici yönü, orijinal ölçümler ve öğrenme eğrileri elde etmek için belirli GPU kurulumları üzerinde deneyler yapma arayışıdır. Bu, çeşitli GPU türlerindeki bellek kısıtlamalarından bilgisayarların taşınmasına kadar zorluklarla dolu bir yolculuktur. OpenAI depolama tesisleri arasındaki veri kümeleri.
Sonuç olarak, İnsan Geri Bildiriminden (RLHF) Takviyeli Öğrenmede Yakınsal Politika Optimizasyonunun (PPO) araştırılması, karmaşıklıklarla dolu büyüleyici bir dünyayı ortaya koyuyor.
Feragatname
Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.
Yazar hakkında
Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.
Daha fazla haberDamir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı.