Bitget App
Trading Inteligente
Comprar criptoMercadosTradingFuturosCopyBotsEarn
OpenAI lanza monitoreo CoT para prevenir comportamientos maliciosos en modelos grandes

OpenAI lanza monitoreo CoT para prevenir comportamientos maliciosos en modelos grandes

Ver el original
Bitget2025/03/10 23:35

OpenAI ha publicado su última investigación, indicando que el uso de la supervisión CoT (Cadena de Pensamiento) puede prevenir que los modelos grandes digan tonterías, oculten verdaderas intenciones y otros comportamientos maliciosos. También es una de las herramientas efectivas para supervisar supermodelos. OpenAI utilizó el modelo de vanguardia recién lanzado o3-mini como el sujeto a ser monitoreado, con un modelo GPT-4o más débil actuando como el monitor. El entorno de prueba consistió en tareas de codificación, requiriendo que la IA implementara funciones en bibliotecas de código para pasar pruebas unitarias. Los resultados mostraron que los monitores CoT se desempeñaron excelentemente en la detección de comportamientos sistemáticos de "hackeo de recompensas", con una tasa de recuperación tan alta como el 95%, superando con creces el 60% de solo monitorear el comportamiento.

0

Descargo de responsabilidad: El contenido de este artículo refleja únicamente la opinión del autor y no representa en modo alguno a la plataforma. Este artículo no se pretende servir de referencia para tomar decisiones de inversión.

PoolX: Bloquea y gana nuevos tokens.
APR de hasta 12%. Gana más airdrop bloqueando más.
¡Bloquea ahora!