Nyhetsrapport Teknologi
Februari 27, 2025

Gensyn släpper RL Swarm Framework för Collaborative Reinforcement Learning, planerar lansering av testnät i mars

I korthet

Gensyn har introducerat RL Swarm för att underlätta kollaborativ förstärkningsinlärning och har tillkännagett en lansering av testnät i mars, vilket möjliggör ett bredare deltagande i utvecklingen av öppen maskinintelligens.

Gensyn släpper RL Swarm Framework för Collaborative Reinforcement Learning, planerar lansering av testnät i mars

Nätverk för maskinintelligens, Gensyn, har introducerat RL Swarm, ett decentraliserat peer-to-peer-system utformat för att underlätta samarbetande förstärkningsinlärning över internet. Nästa månad har projektet för avsikt att lansera ett testnät, som möjliggör ett bredare deltagande i utvecklingen av öppen maskinintelligens.  

RL Swarm är en helt öppen källkodsplattform som gör det möjligt för förstärkningsinlärningsmodeller att träna kollektivt över distribuerade system. Det fungerar som en realtidsdemonstration av forskningsresultat som indikerar att modeller som utnyttjar RL kan förbättra sin inlärningseffektivitet när de tränas som en del av en samarbetssvärm snarare än isolerat.  

Att driva en svärmnod ger möjlighet att antingen initiera en ny svärm eller ansluta till en befintlig med en offentlig adress. Inom varje svärm engagerar sig modeller i förstärkningsinlärning som ett kollektiv, och använder ett decentraliserat kommunikationsprotokoll – baserat på Hivemind – för att underlätta kunskapsdelning och modellförbättring. Genom att köra den medföljande klientmjukvaran kan deltagarna gå med i en svärm, observera delade uppdateringar och träna modeller lokalt samtidigt som de drar nytta av kollektiv intelligens. Framöver kommer ytterligare experiment att introduceras, vilket uppmuntrar ett bredare engagemang för att utveckla denna teknik.  

Individer är välkomna att gå med i RL Swarm för att uppleva systemet på egen hand. Deltagande är tillgängligt via både standard konsumenthårdvara och mer avancerade molnbaserade GPU-resurser.

Hur fungerar RL Swarm? 

Gensyn har länge föreställt sig en framtid där maskininlärning decentraliseras och distribueras över ett stort nätverk av enheter. Istället för att förlita sig på stora, centraliserade modeller skulle detta tillvägagångssätt innebära att dela upp modeller i mindre, sammanlänkade komponenter som fungerar tillsammans. Som en del av sin forskning om denna vision har Gensyn utforskat olika vägar mot decentraliserat lärande och nyligen observerat att efterträning av förstärkt lärande (RL) är särskilt effektivt när modeller kommunicerar och ger feedback till varandra.  

Specifikt indikerar experiment att RL-modeller förbättrar sin inlärningseffektivitet när de tränar som en del av en kollaborativ svärm snarare än självständigt.  

I den här installationen kör varje svärmnod Qwen 2.5 1.5B-modellen och engagerar sig i att lösa matematiska problem (GSM8K) genom en strukturerad process i tre steg. I det första steget försöker varje modell självständigt lösa det givna problemet, generera dess resonemang och svar i ett specificerat format. I det andra steget granskar modeller svaren från sina kamrater och ger konstruktiv feedback. I slutskedet röstar varje modell om vad den förutspår att majoriteten kommer att anse som det bästa svaret, och förfinar sedan sitt svar därefter. Genom dessa iterativa interaktioner förbättrar modellerna tillsammans sin problemlösningsförmåga.  

Experimentella resultat tyder på att denna metod påskyndar inlärningsprocessen, vilket gör det möjligt för modeller att generera mer exakta svar på osynliga testdata med färre träningsupprepningar.  

Datavisualiseringar med TensorBoard illustrerar nyckeltrender som observerats i en deltagande svärmnod. Dessa plotter uppvisar cykliska mönster på grund av periodiska "återställningar" som sker mellan omgångarna av samarbetsträning. X-axeln i alla diagram representerar den tid som förflutit sedan noden gick med i svärmen, medan y-axeln förmedlar olika prestandamått. Från vänster till höger visar plotten: Consensus Correctness Reward, som mäter fall där en modell formaterade sitt svar korrekt och gav ett matematiskt korrekt svar; Total Reward, en viktad summa av regelbaserade utvärderingar (som formatering, matematisk noggrannhet och logisk koherens); Training Loss, som återspeglar hur modellen anpassar sig baserat på belöningssignaler för att optimera sin inlärningsprocess; och Response Completion Length, som spårar antalet tokens som används i svar – vilket indikerar att modellerna blir mer koncisa när de får kritik från kollegor.

Ansvarsfriskrivning

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

fler artiklar
Alisa Davidson
Alisa Davidson

Alisa, en engagerad journalist på MPost, specialiserat på kryptovaluta, nollkunskapsbevis, investeringar och den expansiva sfären av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

Lugnet före Solana-stormen: Vad diagram, valar och signaler på kedjan säger nu

Solana har visat starka resultat, drivet av ökande implementering, institutionellt intresse och viktiga partnerskap, samtidigt som den står inför potentiella ...

Lär dig mer

Krypto i april 2025: Viktiga trender, förändringar och vad som kommer härnäst

I april 2025 fokuserade kryptomarknaden på att stärka kärninfrastrukturen, där Ethereum förberedde sig för Pectra ...

Lär dig mer
Läs mer
Läs mer
HSC Asset Management avslutar Hongkong-utgåvan och visar upp insikter som driver institutionellt deltagande i Web3 Och framväxande teknik
Featured Hacka säsonger företag Livsstil Marknader Nyhetsrapport Teknologi
HSC Asset Management avslutar Hongkong-utgåvan och visar upp insikter som driver institutionellt deltagande i Web3 Och framväxande teknik
Februari 13, 2026
CertiK vinner priset för "Bästa säkerhets- och efterlevnadslösning 2026" vid SiGMA AIBC Eurasia Awards
Nyhetsrapport Teknologi
CertiK vinner priset för "Bästa säkerhets- och efterlevnadslösning 2026" vid SiGMA AIBC Eurasia Awards
Februari 13, 2026
Binance, BlackRock och Ripple leder institutionell kryptosatsning under februaris andra vecka
företag Nyhetsrapport Teknologi
Binance, BlackRock och Ripple leder institutionell kryptosatsning under februaris andra vecka
Februari 13, 2026
Gates grundare Dr. Han om att utveckla nästa generations finansiella system via intelligenta lösningar Web3
företag Nyhetsrapport Teknologi
Gates grundare Dr. Han om att utveckla nästa generations finansiella system via intelligenta lösningar Web3
Februari 13, 2026