Gensyn Melancarkan Rangka Kerja RL Swarm Untuk Pembelajaran Pengukuhan Kolaboratif, Merancang Pelancaran Testnet Mac
Secara ringkas
Gensyn telah memperkenalkan RL Swarm untuk memudahkan pembelajaran pengukuhan kolaboratif dan telah mengumumkan pelancaran testnet Mac, membolehkan penyertaan yang lebih luas dalam kemajuan kecerdasan mesin terbuka.
Rangkaian untuk kecerdasan mesin, Gensyn, telah memperkenalkan RL Swarm, sistem peer-to-peer terdesentralisasi yang direka untuk memudahkan pembelajaran pengukuhan kolaboratif melalui internet. Bulan depan, projek itu berhasrat untuk melancarkan testnet, membolehkan penyertaan yang lebih luas dalam memajukan kecerdasan mesin terbuka.
RL Swarm ialah platform sumber terbuka sepenuhnya yang membolehkan model pembelajaran pengukuhan melatih secara kolektif merentas sistem teragih. Ia berfungsi sebagai demonstrasi masa nyata penemuan penyelidikan yang menunjukkan bahawa model yang memanfaatkan RL boleh meningkatkan kecekapan pembelajaran mereka apabila dilatih sebagai sebahagian daripada kumpulan kolaboratif dan bukannya secara berasingan.
Mengendalikan nod kawanan menyediakan keupayaan untuk sama ada memulakan kawanan baharu atau menyambung ke nod sedia ada menggunakan alamat awam. Dalam setiap kumpulan, model terlibat dalam pembelajaran pengukuhan sebagai kolektif, menggunakan protokol komunikasi terpencar—berdasarkan Hivemind—untuk memudahkan perkongsian pengetahuan dan penambahbaikan model. Dengan menjalankan perisian pelanggan yang disediakan, peserta boleh menyertai kumpulan, memerhati kemas kini yang dikongsi dan melatih model secara tempatan sambil mendapat manfaat daripada kecerdasan kolektif. Pada masa hadapan, percubaan tambahan akan diperkenalkan, menggalakkan penglibatan yang lebih luas dalam memajukan teknologi ini.
Individu dijemput untuk menyertai RL Swarm untuk mengalami sistem ini secara langsung. Penyertaan boleh diakses melalui perkakasan pengguna standard dan sumber GPU berasaskan awan yang lebih maju.
Bagaimana RL Swarm Berfungsi?
Gensyn telah lama membayangkan masa depan di mana pembelajaran mesin didesentralisasikan dan diedarkan merentasi rangkaian peranti yang luas. Daripada bergantung pada model berpusat yang besar, pendekatan ini akan melibatkan pemecahan model kepada komponen yang lebih kecil dan saling berkaitan yang beroperasi secara kolaboratif. Sebagai sebahagian daripada penyelidikannya terhadap visi ini, Gensyn telah meneroka pelbagai laluan ke arah pembelajaran terdesentralisasi dan baru-baru ini mendapati bahawa pembelajaran pengukuhan (RL) selepas latihan amat berkesan apabila model berkomunikasi dan memberikan maklum balas antara satu sama lain.
Secara khusus, eksperimen menunjukkan bahawa model RL meningkatkan kecekapan pembelajaran mereka apabila mereka berlatih sebagai sebahagian daripada kumpulan kolaboratif dan bukannya secara bebas.
Dalam persediaan ini, setiap nod swarm menjalankan model Qwen 2.5 1.5B dan terlibat dalam menyelesaikan masalah matematik (GSM8K) melalui proses tiga peringkat berstruktur. Pada peringkat pertama, setiap model secara bebas cuba menyelesaikan masalah yang diberikan, menghasilkan penaakulan dan jawapannya dalam format yang ditentukan. Pada peringkat kedua, model menyemak tindak balas rakan sebaya mereka dan memberikan maklum balas yang membina. Pada peringkat akhir, setiap model mengundi pada perkara yang diramalkan majoriti akan mempertimbangkan jawapan terbaik, kemudian memperhalusi responsnya dengan sewajarnya. Melalui interaksi berulang ini, model secara kolektif meningkatkan keupayaan menyelesaikan masalah mereka.
Keputusan eksperimen menunjukkan bahawa kaedah ini mempercepatkan proses pembelajaran, membolehkan model menghasilkan respons yang lebih tepat pada data ujian yang tidak kelihatan dengan lelaran latihan yang lebih sedikit.
Visualisasi data menggunakan TensorBoard menggambarkan arah aliran utama yang diperhatikan dalam nod kawanan yang mengambil bahagian. Plot ini mempamerkan corak kitaran disebabkan "set semula" berkala yang berlaku antara pusingan latihan kolaboratif. Paksi-x dalam semua plot mewakili masa berlalu sejak nod menyertai kumpulan, manakala paksi-y menyampaikan metrik prestasi yang berbeza. Dari kiri ke kanan, plot menggambarkan: Ganjaran Ketepatan Konsensus, yang mengukur keadaan di mana model memformatkan responsnya dengan betul dan menghasilkan jawapan yang tepat secara matematik; Jumlah Ganjaran, jumlah wajaran penilaian berasaskan peraturan (seperti pemformatan, ketepatan matematik dan koheren logik); Kehilangan Latihan, yang mencerminkan cara model menyesuaikan berdasarkan isyarat ganjaran untuk mengoptimumkan proses pembelajarannya; dan Tempoh Penyiapan Respons, yang menjejaki bilangan token yang digunakan dalam respons—menunjukkan bahawa model menjadi lebih ringkas apabila mereka menerima kritikan rakan sebaya.
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Alisa, seorang wartawan yang berdedikasi di MPost, pakar dalam mata wang kripto, bukti pengetahuan sifar, pelaburan dan alam luas Web3. Dengan memerhatikan trend dan teknologi yang sedang muncul, beliau menyampaikan liputan komprehensif untuk memaklumkan dan melibatkan pembaca dalam landskap kewangan digital yang sentiasa berkembang.
lebih banyak artikel
Alisa, seorang wartawan yang berdedikasi di MPost, pakar dalam mata wang kripto, bukti pengetahuan sifar, pelaburan dan alam luas Web3. Dengan memerhatikan trend dan teknologi yang sedang muncul, beliau menyampaikan liputan komprehensif untuk memaklumkan dan melibatkan pembaca dalam landskap kewangan digital yang sentiasa berkembang.