Nieuwsverslag Technologie
27 februari 2025

Gensyn brengt RL Swarm Framework uit voor collaboratief versterkend leren, plant testnetlancering in maart

In het kort

Gensyn heeft RL Swarm geïntroduceerd om samenwerkend reinforcement learning te vergemakkelijken en heeft een testnetlancering in maart aangekondigd, waardoor bredere deelname aan de ontwikkeling van open machine-intelligentie mogelijk wordt.

Gensyn brengt RL Swarm Framework uit voor collaboratief versterkend leren, plant testnetlancering in maart

Netwerk voor machine-intelligentie, gensyn, heeft RL Swarm geïntroduceerd, een gedecentraliseerd peer-to-peer systeem dat is ontworpen om collaboratief reinforcement learning via internet te faciliteren. Volgende maand wil het project een testnet lanceren, wat bredere deelname aan het bevorderen van open machine intelligence mogelijk maakt.  

RL Swarm is een volledig open-sourceplatform dat reinforcement learning-modellen in staat stelt om collectief te trainen in gedistribueerde systemen. Het dient als een realtime demonstratie van onderzoeksresultaten die aangeven dat modellen die RL benutten hun leerefficiëntie kunnen verbeteren wanneer ze worden getraind als onderdeel van een collaboratieve zwerm in plaats van geïsoleerd.  

Het bedienen van een zwermknooppunt biedt de mogelijkheid om een ​​nieuwe zwerm te starten of verbinding te maken met een bestaande zwerm met behulp van een openbaar adres. Binnen elke zwerm doen modellen aan reinforcement learning als collectief, waarbij ze gebruikmaken van een gedecentraliseerd communicatieprotocol, gebaseerd op Hivemind, om kennisdeling en modelverbetering te vergemakkelijken. Door de meegeleverde clientsoftware te gebruiken, kunnen deelnemers zich bij een zwerm aansluiten, gedeelde updates bekijken en modellen lokaal trainen, terwijl ze profiteren van collectieve intelligentie. Vooruitkijkend zullen er aanvullende experimenten worden geïntroduceerd, die een bredere betrokkenheid bij het bevorderen van deze technologie aanmoedigen.  

Individuen worden uitgenodigd om lid te worden van RL Swarm om het systeem uit de eerste hand te ervaren. Deelname is toegankelijk via zowel standaard consumentenhardware als geavanceerdere cloudgebaseerde GPU-bronnen.

Hoe werkt RL Swarm? 

gensyn heeft al lang een toekomst voor ogen waarin machine learning gedecentraliseerd is en verspreid over een enorm netwerk van apparaten. In plaats van te vertrouwen op grote, gecentraliseerde modellen, zou deze aanpak het opsplitsen van modellen in kleinere, onderling verbonden componenten inhouden die samenwerken. Als onderdeel van het onderzoek naar deze visie heeft Gensyn verschillende paden naar gedecentraliseerd leren verkend en onlangs geobserveerd dat reinforcement learning (RL) na de training bijzonder effectief is wanneer modellen met elkaar communiceren en feedback aan elkaar geven.  

Experimenten geven specifiek aan dat RL-modellen hun leerefficiëntie verbeteren wanneer ze trainen als onderdeel van een samenwerkende zwerm in plaats van onafhankelijk.  

In deze opstelling draait elk zwermknooppunt het Qwen 2.5 1.5B-model en lost het wiskundige problemen (GSM8K) op via een gestructureerd proces met drie fasen. In de eerste fase probeert elk model onafhankelijk het gegeven probleem op te lossen, waarbij het zijn redenering en antwoord genereert in een bepaald formaat. In de tweede fase beoordelen modellen de reacties van hun collega's en geven ze constructieve feedback. In de laatste fase stemt elk model op wat het voorspelt dat de meerderheid als het beste antwoord zal beschouwen, en verfijnt vervolgens zijn reactie dienovereenkomstig. Door deze iteratieve interacties verbeteren de modellen gezamenlijk hun probleemoplossend vermogen.  

Experimentele resultaten suggereren dat deze methode het leerproces versnelt, waardoor modellen nauwkeurigere antwoorden kunnen genereren op ongeziene testgegevens met minder trainingsiteraties.  

Datavisualisaties met behulp van TensorBoard illustreren belangrijke trends die zijn waargenomen in een deelnemende zwermnode. Deze grafieken vertonen cyclische patronen als gevolg van periodieke 'resets' die plaatsvinden tussen rondes van collaboratieve training. De x-as in alle grafieken vertegenwoordigt de tijd die is verstreken sinds de node zich bij de zwerm heeft aangesloten, terwijl de y-as verschillende prestatiemetingen weergeeft. Van links naar rechts tonen de grafieken: Consensus Correctness Reward, die gevallen meet waarin een model zijn antwoord correct heeft geformatteerd en een wiskundig nauwkeurig antwoord heeft geproduceerd; Total Reward, een gewogen som van op regels gebaseerde evaluaties (zoals opmaak, wiskundige nauwkeurigheid en logische coherentie); Training Loss, die weerspiegelt hoe het model zich aanpast op basis van beloningssignalen om zijn leerproces te optimaliseren; en Response Completion Length, die het aantal tokens bijhoudt dat in antwoorden wordt gebruikt, wat aangeeft dat modellen bondiger worden wanneer ze peer-kritiek ontvangen.

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Meer artikelen
Alisa Davidson
Alisa Davidson

Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.

Hot Stories

De meest veelbelovende blockchain-apps in 2026

by Alisa Davidson
17 februari 2026
Schrijf je in op onze nieuwsbrief.
Latest News

De meest veelbelovende blockchain-apps in 2026

by Alisa Davidson
17 februari 2026

De rust voor de Solana-storm: wat grafieken, walvissen en on-chain signalen nu zeggen

Solana heeft sterke prestaties geleverd, gedreven door toenemende acceptatie, institutionele interesse en belangrijke partnerschappen, terwijl ze ook te maken had met potentiële ...

Meer weten

Crypto in april 2025: belangrijke trends, verschuivingen en wat er daarna komt

In april 2025 richtte de cryptowereld zich op het versterken van de kerninfrastructuur, waarbij Ethereum zich voorbereidde op de Pectra ...

Meer weten
Meer informatie
Lees meer
De meest veelbelovende blockchain-apps in 2026
Nieuwsverslag Technologie
De meest veelbelovende blockchain-apps in 2026
17 februari 2026
Centrifuge en Pharos bundelen hun krachten om de on-chain distributie-infrastructuur voor institutionele activa te versterken.
Bedrijf Nieuwsverslag Technologie
Centrifuge en Pharos bundelen hun krachten om de on-chain distributie-infrastructuur voor institutionele activa te versterken.
17 februari 2026
Gameontwikkelaars uit de Metaverse om in 2026 in de gaten te houden
Toplijsten Nieuwsverslag Technologie
Gameontwikkelaars uit de Metaverse om in 2026 in de gaten te houden
17 februari 2026
Analist zegt dat Bitcoin een nieuwe accumulatiecyclus ingaat na een piek in de volatiliteit die een trendomkeer aangeeft.
Markten Nieuwsverslag Technologie
Analist zegt dat Bitcoin een nieuwe accumulatiecyclus ingaat na een piek in de volatiliteit die een trendomkeer aangeeft.
17 februari 2026