Gensyn släpper RL Swarm Framework för Collaborative Reinforcement Learning, planerar lansering av testnät i mars
I korthet
Gensyn har introducerat RL Swarm för att underlätta kollaborativ förstärkningsinlärning och har tillkännagett en lansering av testnät i mars, vilket möjliggör ett bredare deltagande i utvecklingen av öppen maskinintelligens.
Nätverk för maskinintelligens, Gensyn, har introducerat RL Swarm, ett decentraliserat peer-to-peer-system utformat för att underlätta samarbetande förstärkningsinlärning över internet. Nästa månad har projektet för avsikt att lansera ett testnät, som möjliggör ett bredare deltagande i utvecklingen av öppen maskinintelligens.
RL Swarm är en helt öppen källkodsplattform som gör det möjligt för förstärkningsinlärningsmodeller att träna kollektivt över distribuerade system. Det fungerar som en realtidsdemonstration av forskningsresultat som indikerar att modeller som utnyttjar RL kan förbättra sin inlärningseffektivitet när de tränas som en del av en samarbetssvärm snarare än isolerat.
Att driva en svärmnod ger möjlighet att antingen initiera en ny svärm eller ansluta till en befintlig med en offentlig adress. Inom varje svärm engagerar sig modeller i förstärkningsinlärning som ett kollektiv, och använder ett decentraliserat kommunikationsprotokoll – baserat på Hivemind – för att underlätta kunskapsdelning och modellförbättring. Genom att köra den medföljande klientmjukvaran kan deltagarna gå med i en svärm, observera delade uppdateringar och träna modeller lokalt samtidigt som de drar nytta av kollektiv intelligens. Framöver kommer ytterligare experiment att introduceras, vilket uppmuntrar ett bredare engagemang för att utveckla denna teknik.
Individer är välkomna att gå med i RL Swarm för att uppleva systemet på egen hand. Deltagande är tillgängligt via både standard konsumenthårdvara och mer avancerade molnbaserade GPU-resurser.
Hur fungerar RL Swarm?
Gensyn har länge föreställt sig en framtid där maskininlärning decentraliseras och distribueras över ett stort nätverk av enheter. Istället för att förlita sig på stora, centraliserade modeller skulle detta tillvägagångssätt innebära att dela upp modeller i mindre, sammanlänkade komponenter som fungerar tillsammans. Som en del av sin forskning om denna vision har Gensyn utforskat olika vägar mot decentraliserat lärande och nyligen observerat att efterträning av förstärkt lärande (RL) är särskilt effektivt när modeller kommunicerar och ger feedback till varandra.
Specifikt indikerar experiment att RL-modeller förbättrar sin inlärningseffektivitet när de tränar som en del av en kollaborativ svärm snarare än självständigt.
I den här installationen kör varje svärmnod Qwen 2.5 1.5B-modellen och engagerar sig i att lösa matematiska problem (GSM8K) genom en strukturerad process i tre steg. I det första steget försöker varje modell självständigt lösa det givna problemet, generera dess resonemang och svar i ett specificerat format. I det andra steget granskar modeller svaren från sina kamrater och ger konstruktiv feedback. I slutskedet röstar varje modell om vad den förutspår att majoriteten kommer att anse som det bästa svaret, och förfinar sedan sitt svar därefter. Genom dessa iterativa interaktioner förbättrar modellerna tillsammans sin problemlösningsförmåga.
Experimentella resultat tyder på att denna metod påskyndar inlärningsprocessen, vilket gör det möjligt för modeller att generera mer exakta svar på osynliga testdata med färre träningsupprepningar.
Datavisualiseringar med TensorBoard illustrerar nyckeltrender som observerats i en deltagande svärmnod. Dessa plotter uppvisar cykliska mönster på grund av periodiska "återställningar" som sker mellan omgångarna av samarbetsträning. X-axeln i alla diagram representerar den tid som förflutit sedan noden gick med i svärmen, medan y-axeln förmedlar olika prestandamått. Från vänster till höger visar plotten: Consensus Correctness Reward, som mäter fall där en modell formaterade sitt svar korrekt och gav ett matematiskt korrekt svar; Total Reward, en viktad summa av regelbaserade utvärderingar (som formatering, matematisk noggrannhet och logisk koherens); Training Loss, som återspeglar hur modellen anpassar sig baserat på belöningssignaler för att optimera sin inlärningsprocess; och Response Completion Length, som spårar antalet tokens som används i svar – vilket indikerar att modellerna blir mer koncisa när de får kritik från kollegor.
Ansvarsfriskrivning
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.
fler artiklar
Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.