Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosCopyBotsEarn
Gensyn lanza el marco RL Swarm para el aprendizaje de refuerzo colaborativo y planea el lanzamiento de la red de pruebas en marzo

Gensyn lanza el marco RL Swarm para el aprendizaje de refuerzo colaborativo y planea el lanzamiento de la red de pruebas en marzo

MPOSTMPOST2025/02/28 11:44
Por:MPOST

En Resumen Gensyn ha presentado RL Swarm para facilitar el aprendizaje de refuerzo colaborativo y ha anunciado el lanzamiento de una red de pruebas en marzo, lo que permitirá una participación más amplia en el avance de la inteligencia de máquinas abiertas.

Red para inteligencia de máquinas, Gensyn , ha presentado RL Swarm, un sistema descentralizado entre pares diseñado para facilitar el aprendizaje colaborativo por refuerzo a través de Internet. El mes que viene, el proyecto pretende lanzar una red de prueba, que permita una participación más amplia en el avance de la inteligencia artificial abierta.  

RL Swarm es una plataforma de código abierto que permite que los modelos de aprendizaje por refuerzo se entrenen de forma colectiva en sistemas distribuidos. Sirve como demostración en tiempo real de los resultados de las investigaciones que indican que los modelos que aprovechan el aprendizaje por refuerzo pueden mejorar su eficiencia de aprendizaje cuando se entrenan como parte de un enjambre colaborativo en lugar de hacerlo de forma aislada.  

El funcionamiento de un nodo de enjambre permite iniciar un nuevo enjambre o conectarse a uno existente mediante una dirección pública. Dentro de cada enjambre, los modelos participan en el aprendizaje de refuerzo como colectivo, utilizando un protocolo de comunicación descentralizado (basado en Hivemind) para facilitar el intercambio de conocimientos y la mejora de los modelos. Al ejecutar el software cliente proporcionado, los participantes pueden unirse a un enjambre, observar actualizaciones compartidas y entrenar modelos localmente mientras se benefician de la inteligencia colectiva. De cara al futuro, se introducirán experimentos adicionales que fomentarán una participación más amplia en el avance de esta tecnología.  

Se invita a las personas a unirse a RL Swarm para experimentar el sistema de primera mano. Se puede participar tanto a través de hardware de consumo estándar como de recursos de GPU basados ​​en la nube más avanzados.

La red para la inteligencia de las máquinas

Hace dos años, presentamos nuestra visión de un protocolo de computación de aprendizaje automático que conecta todos los dispositivos del mundo en una red abierta para la inteligencia de las máquinas, sin guardianes ni límites artificiales.

Esta semana estaremos… imagen.twitter.com/W9WGJHiJPI

—gensyn (@gensynai) Febrero 26, 2025

¿Cómo funciona RL Swarm? 

Gensyn Gensyn ha imaginado desde hace tiempo un futuro en el que el aprendizaje automático está descentralizado y distribuido en una vasta red de dispositivos. En lugar de depender de modelos grandes y centralizados, este enfoque implicaría dividir los modelos en componentes más pequeños e interconectados que operan de manera colaborativa. Como parte de su investigación sobre esta visión, Gensyn ha explorado varias vías hacia el aprendizaje descentralizado y recientemente observó que el aprendizaje de refuerzo (RL) posterior al entrenamiento es particularmente eficaz cuando los modelos se comunican y brindan retroalimentación entre sí.  

En concreto, los experimentos indican que los modelos RL mejoran su eficiencia de aprendizaje cuando se entrenan como parte de un enjambre colaborativo en lugar de hacerlo de forma independiente.  

En esta configuración, cada nodo del enjambre ejecuta el modelo Qwen 2.5 1.5B y se dedica a resolver problemas matemáticos (GSM8K) a través de un proceso estructurado de tres etapas. En la primera etapa, cada modelo intenta resolver de forma independiente el problema planteado, generando su razonamiento y respuesta en un formato específico. En la segunda etapa, los modelos revisan las respuestas de sus pares y brindan comentarios constructivos. En la etapa final, cada modelo vota sobre lo que predice que la mayoría considerará la mejor respuesta y luego refina su respuesta en consecuencia. A través de estas interacciones iterativas, los modelos mejoran colectivamente sus capacidades de resolución de problemas.  

Los resultados experimentales sugieren que este método acelera el proceso de aprendizaje, permitiendo que los modelos generen respuestas más precisas en datos de prueba no vistos con menos iteraciones de entrenamiento.  

Las visualizaciones de datos realizadas con TensorBoard ilustran las tendencias clave observadas en un nodo participante del enjambre. Estos gráficos muestran patrones cíclicos debido a los “reinicios” periódicos que se producen entre las rondas de entrenamiento colaborativo. El eje x en todos los gráficos representa el tiempo transcurrido desde que el nodo se unió al enjambre, mientras que el eje y transmite diferentes métricas de rendimiento. De izquierda a derecha, los gráficos muestran: recompensa por corrección del consenso, que mide las instancias en las que un modelo formateó correctamente su respuesta y produjo una respuesta matemáticamente precisa; recompensa total, una suma ponderada de evaluaciones basadas en reglas (como formato, precisión matemática y coherencia lógica); pérdida de entrenamiento, que refleja cómo se ajusta el modelo en función de las señales de recompensa para optimizar su proceso de aprendizaje; y longitud de finalización de la respuesta, que rastrea la cantidad de tokens utilizados en las respuestas, lo que indica que los modelos se vuelven más concisos cuando reciben críticas de pares.

0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Bloquea y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!