Haber Raporu Teknoloji
27 Ekim 2023

Araştırmacılar Çoğaltıldı OpenAIRLHF'de Yakınsal Politika Optimizasyonuna (PPO) Dayalı Çalışma

İnsan Geri Bildiriminden Takviyeli Öğrenme (RLHF), aşağıdaki gibi eğitim sistemlerinin ayrılmaz bir parçasıdır: ChatGPTve başarıya ulaşmak için özel yöntemlere dayanır. Bu yöntemlerden biri olan Yakınsal Politika Optimizasyonu (PPO), başlangıçta tasarlanmış duvarları içinde OpenAI İlk bakışta PPO, uygulamadaki basitlik vaadiyle ve modelde ince ayar yapmak için gereken nispeten az sayıda hiper parametreyle göze çarpıyordu. Ancak dedikleri gibi şeytan ayrıntıda gizlidir.

Araştırmacılar Çoğaltıldı OpenAIRLHF'de Yakınsal Politika Optimizasyonuna (PPO) Dayalı Çalışma

Geçtiğimiz günlerde "" başlıklı bir blog yazısı yayınlandı.Yakınsal Politika Optimizasyonunun 37 Uygulama Detayı” PPO'nun (ICLR konferansı için hazırlanan) inceliklerine ışık tutuyor. Tek başına isim, bu sözde basit yöntemin uygulanmasında karşılaşılan zorluklara işaret ediyor. Şaşırtıcı bir şekilde, yazarların gerekli tüm bilgileri toplaması ve sonuçları yeniden üretmesi üç yıl sürdü.

içindeki kod OpenAI veri deposu sürümler arasında önemli değişikliklere uğradı, bazı yönler açıklanmadan kaldı ve hata olarak ortaya çıkan tuhaflıklar bir şekilde sonuç verdi. Ayrıntılara girdiğinizde PPO'nun karmaşıklığı açıkça ortaya çıkıyor ve derin bir anlayış veya kişisel gelişimle ilgilenenler için şiddetle tavsiye edilen bir video özeti mevcut.

Ancak hikaye burada bitmiyor. Aynı yazarlar konuyu tekrar incelemeye karar verdiler. openai/lm-insan-tercihleri ​​deposu PPO'yu kullanarak dil modellerinin insan tercihlerine göre ince ayarlanmasında önemli bir rol oynayan 2019'dan itibaren. Bu depo, bu alandaki ilk gelişmelere işaret ediyordu. ChatGPT. Son blog yazısı, “PPO ile RLHF'nin N Uygulama Detayları" yakından kopyalanıyor OpenAI'nin çalışması ancak eski TensorFlow yerine PyTorch ve modern kütüphaneleri kullanıyor. Bu geçiş, Adam optimizasyon aracının çerçeveler arasında uygulanmasındaki farklılıklar gibi kendi zorluklarını da beraberinde getirdi; bu da eğitimin ayarlamalar olmadan tekrarlanmasını imkansız hale getiriyordu.

Belki de bu yolculuğun en ilgi çekici yönü, orijinal ölçümler ve öğrenme eğrileri elde etmek için belirli GPU kurulumları üzerinde deneyler yapma arayışıdır. Bu, çeşitli GPU türlerindeki bellek kısıtlamalarından bilgisayarların taşınmasına kadar zorluklarla dolu bir yolculuktur. OpenAI depolama tesisleri arasındaki veri kümeleri.

Sonuç olarak, İnsan Geri Bildiriminden (RLHF) Takviyeli Öğrenmede Yakınsal Politika Optimizasyonunun (PPO) araştırılması, karmaşıklıklarla dolu büyüleyici bir dünyayı ortaya koyuyor.

Feragatname

Doğrultusunda Trust Project yönergeleri, lütfen bu sayfada sağlanan bilgilerin hukuki, vergi, yatırım, finansal veya başka herhangi bir tavsiye niteliğinde olmadığını ve bu şekilde yorumlanmaması gerektiğini unutmayın. Yalnızca kaybetmeyi göze alabileceğiniz kadar yatırım yapmak ve herhangi bir şüpheniz varsa bağımsız finansal tavsiye almak önemlidir. Daha fazla bilgi için şartlar ve koşulların yanı sıra kartı veren kuruluş veya reklamveren tarafından sağlanan yardım ve destek sayfalarına bakmanızı öneririz. MetaversePost doğru, tarafsız raporlamaya kendini adamıştır, ancak piyasa koşulları önceden haber verilmeksizin değiştirilebilir.

Yazar hakkında

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Daha fazla haber
Damir Yalalov
Damir Yalalov

Damir şu anda ekip lideri, ürün yöneticisi ve editördür: Metaverse Post, AI/ML, AGI, LLM'ler, Metaverse ve Web3-İlgili alanlar. Makaleleri, her ay bir milyondan fazla kullanıcıdan oluşan büyük bir kitleyi kendine çekiyor. SEO ve dijital pazarlama konusunda 10 yıllık deneyime sahip bir uzman gibi görünüyor. Damir'den Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ve diğer yayınlar. Dijital bir göçebe olarak BAE, Türkiye, Rusya ve BDT arasında seyahat ediyor. Damir, kendisine internetin sürekli değişen ortamında başarılı olmak için gereken eleştirel düşünme becerilerini verdiğine inandığı fizik alanında lisans derecesi aldı. 

Volatilite Ortasında Bitcoin ETF'lerine Yönelik Kurumsal İştah Artıyor

13F başvuruları aracılığıyla yapılan açıklamalar, önemli kurumsal yatırımcıların Bitcoin ETF'leriyle uğraştığını ortaya koyuyor ve Bitcoin ETF'lerinin artan bir şekilde kabul edildiğinin altını çiziyor.

bilmek Daha

Hüküm Günü Geliyor: ABD Mahkemesi Adalet Bakanlığı'nın Savunmasını Değerlendirirken CZ'nin Kaderi Dengede

Changpeng Zhao bugün Seattle'daki bir ABD mahkemesinde cezayla karşı karşıya kalmaya hazırlanıyor.

bilmek Daha
Yenilikçi Teknoloji Topluluğumuza Katılın
Devamını Oku
Daha fazla
Donald Trump'ın Kriptoya Geçişi: Rakipten Savunucuya ve ABD Kripto Para Piyasası İçin Ne İfade Ediyor?
İşletme Piyasalar Hikayeler ve İncelemeler Teknoloji
Donald Trump'ın Kriptoya Geçişi: Rakipten Savunucuya ve ABD Kripto Para Piyasası İçin Ne İfade Ediyor?
Mayıs 10, 2024
Layer3 Bu Yaz L3 Tokenini Piyasaya Sürecek ve Toplam Arzın %51'ini Topluluğa Ayıracak
Piyasalar Haber Raporu Teknoloji
Layer3 Bu Yaz L3 Tokenini Piyasaya Sürecek ve Toplam Arzın %51'ini Topluluğa Ayıracak
Mayıs 10, 2024
Edward Snowden'ın Bitcoin Geliştiricilerine Son Uyarısı: “Gizliliği Protokol Düzeyinde Öncelik Haline Getirin, Aksi takdirde Kaybetme Riskine Girin
Piyasalar Güvenlik Wiki Yazılım Hikayeler ve İncelemeler Teknoloji
Edward Snowden'ın Bitcoin Geliştiricilerine Son Uyarısı: “Gizliliği Protokol Düzeyinde Öncelik Haline Getirin, Aksi takdirde Kaybetme Riskine Girin
Mayıs 10, 2024
İyimserlik Destekli Ethereum Layer 2 Network Mint, Ana Ağını 15 Mayıs'ta Başlatacak
Haber Raporu Teknoloji
İyimserlik Destekli Ethereum Layer 2 Network Mint, Ana Ağını 15 Mayıs'ta Başlatacak
Mayıs 10, 2024
CRYPTOMERIA LABS PTE. LTD.