Gensyn brengt RL Swarm Framework uit voor collaboratief versterkend leren, plant testnetlancering in maart
In het kort
Gensyn heeft RL Swarm geïntroduceerd om samenwerkend reinforcement learning te vergemakkelijken en heeft een testnetlancering in maart aangekondigd, waardoor bredere deelname aan de ontwikkeling van open machine-intelligentie mogelijk wordt.
Netwerk voor machine-intelligentie, gensyn, heeft RL Swarm geïntroduceerd, een gedecentraliseerd peer-to-peer systeem dat is ontworpen om collaboratief reinforcement learning via internet te faciliteren. Volgende maand wil het project een testnet lanceren, wat bredere deelname aan het bevorderen van open machine intelligence mogelijk maakt.
RL Swarm is een volledig open-sourceplatform dat reinforcement learning-modellen in staat stelt om collectief te trainen in gedistribueerde systemen. Het dient als een realtime demonstratie van onderzoeksresultaten die aangeven dat modellen die RL benutten hun leerefficiëntie kunnen verbeteren wanneer ze worden getraind als onderdeel van een collaboratieve zwerm in plaats van geïsoleerd.
Het bedienen van een zwermknooppunt biedt de mogelijkheid om een nieuwe zwerm te starten of verbinding te maken met een bestaande zwerm met behulp van een openbaar adres. Binnen elke zwerm doen modellen aan reinforcement learning als collectief, waarbij ze gebruikmaken van een gedecentraliseerd communicatieprotocol, gebaseerd op Hivemind, om kennisdeling en modelverbetering te vergemakkelijken. Door de meegeleverde clientsoftware te gebruiken, kunnen deelnemers zich bij een zwerm aansluiten, gedeelde updates bekijken en modellen lokaal trainen, terwijl ze profiteren van collectieve intelligentie. Vooruitkijkend zullen er aanvullende experimenten worden geïntroduceerd, die een bredere betrokkenheid bij het bevorderen van deze technologie aanmoedigen.
Individuen worden uitgenodigd om lid te worden van RL Swarm om het systeem uit de eerste hand te ervaren. Deelname is toegankelijk via zowel standaard consumentenhardware als geavanceerdere cloudgebaseerde GPU-bronnen.
Hoe werkt RL Swarm?
gensyn heeft al lang een toekomst voor ogen waarin machine learning gedecentraliseerd is en verspreid over een enorm netwerk van apparaten. In plaats van te vertrouwen op grote, gecentraliseerde modellen, zou deze aanpak het opsplitsen van modellen in kleinere, onderling verbonden componenten inhouden die samenwerken. Als onderdeel van het onderzoek naar deze visie heeft Gensyn verschillende paden naar gedecentraliseerd leren verkend en onlangs geobserveerd dat reinforcement learning (RL) na de training bijzonder effectief is wanneer modellen met elkaar communiceren en feedback aan elkaar geven.
Experimenten geven specifiek aan dat RL-modellen hun leerefficiëntie verbeteren wanneer ze trainen als onderdeel van een samenwerkende zwerm in plaats van onafhankelijk.
In deze opstelling draait elk zwermknooppunt het Qwen 2.5 1.5B-model en lost het wiskundige problemen (GSM8K) op via een gestructureerd proces met drie fasen. In de eerste fase probeert elk model onafhankelijk het gegeven probleem op te lossen, waarbij het zijn redenering en antwoord genereert in een bepaald formaat. In de tweede fase beoordelen modellen de reacties van hun collega's en geven ze constructieve feedback. In de laatste fase stemt elk model op wat het voorspelt dat de meerderheid als het beste antwoord zal beschouwen, en verfijnt vervolgens zijn reactie dienovereenkomstig. Door deze iteratieve interacties verbeteren de modellen gezamenlijk hun probleemoplossend vermogen.
Experimentele resultaten suggereren dat deze methode het leerproces versnelt, waardoor modellen nauwkeurigere antwoorden kunnen genereren op ongeziene testgegevens met minder trainingsiteraties.
Datavisualisaties met behulp van TensorBoard illustreren belangrijke trends die zijn waargenomen in een deelnemende zwermnode. Deze grafieken vertonen cyclische patronen als gevolg van periodieke 'resets' die plaatsvinden tussen rondes van collaboratieve training. De x-as in alle grafieken vertegenwoordigt de tijd die is verstreken sinds de node zich bij de zwerm heeft aangesloten, terwijl de y-as verschillende prestatiemetingen weergeeft. Van links naar rechts tonen de grafieken: Consensus Correctness Reward, die gevallen meet waarin een model zijn antwoord correct heeft geformatteerd en een wiskundig nauwkeurig antwoord heeft geproduceerd; Total Reward, een gewogen som van op regels gebaseerde evaluaties (zoals opmaak, wiskundige nauwkeurigheid en logische coherentie); Training Loss, die weerspiegelt hoe het model zich aanpast op basis van beloningssignalen om zijn leerproces te optimaliseren; en Response Completion Length, die het aantal tokens bijhoudt dat in antwoorden wordt gebruikt, wat aangeeft dat modellen bondiger worden wanneer ze peer-kritiek ontvangen.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.
Meer artikelen
Alisa, een toegewijd journalist bij de MPost, is gespecialiseerd in cryptocurrency, zero-knowledge proofs, investeringen en het uitgebreide domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.