Ampliamos nuestra versión preliminar de investigación sobre agentes de ejecución prolongada

por Cursor Team en Producto

La versión preliminar de investigación sobre agentes de ejecución prolongada de Cursor ya está disponible en cursor.com/agents para todos los usuarios de Ultra, Teams y Enterprise.

El agente de ejecución prolongada es el resultado de nuestra investigación sobre agentes que trabajan de forma autónoma en proyectos más ambiciosos, incluido el trabajo que compartimos el mes pasado sobre cómo Cursor creó un navegador web.

Durante ese experimento, vimos que los modelos más avanzados fallaban de formas previsibles en tareas de largo plazo. Abordamos estas limitaciones creando una infraestructura personalizada que permite a los agentes asumir trabajos más difíciles y llevarlos hasta su finalización.

La semana pasada publicamos una versión de esta infraestructura como parte de una versión preliminar de investigación. Los resultados muestran que los agentes de ejecución prolongada produjeron PR sustancialmente más grandes con tasas de merge comparables a las de otros agentes.

Los agentes de ejecución prolongada produjeron PR sustancialmente más grandes con tasas de merge comparablesLos agentes de ejecución prolongada produjeron PR sustancialmente más grandes con tasas de merge comparables

Al hablar con los participantes de nuestra versión preliminar de investigación, supimos que los agentes de ejecución prolongada completaron con éxito una variedad de tareas que antes estaban fuera del alcance de los agentes. Algunos ejemplos de ejecuciones de la versión preliminar de investigación incluyen:

  • Crear una plataforma de chat completamente nueva integrada con una herramienta de código abierto existente (tiempo de ejecución: 36 horas)
  • Implementar una aplicación móvil basada en una aplicación web existente (tiempo de ejecución: 30 horas)
  • Refactorizar un sistema de autenticación y RBAC (tiempo de ejecución: 25 horas)

Hacer que los modelos sean más capaces

Completar con éxito tareas difíciles requiere inteligencia de vanguardia y el arnés adecuado. Al trabajar con cada modelo de vanguardia y crear un arnés personalizado para cada uno, estamos en una posición única para construir el mejor andamiaje que aproveche las fortalezas de distintos modelos. Hemos visto que hay un par de principios generales que nos ayudan a lograr un mejor rendimiento.

Planificación antes de la ejecución

Cuando iteras directamente con un modelo, los bucles ajustados de mensaje-respuesta te permiten supervisar al agente y volver a encaminarlo cuando sea necesario. Cuando el agente se pone a trabajar de forma autónoma en una tarea más grande, una suposición ligeramente incorrecta puede convertirse en una solución completamente equivocada al final.

Los agentes de ejecución prolongada en Cursor proponen un plan y esperan aprobación en lugar de lanzarse inmediatamente a la ejecución, reconociendo que una alineación inicial reduce la necesidad de interacciones posteriores.

Cumplir las tareas hasta el final

Los modelos de vanguardia pueden escribir muy buen código, pero a menudo olvidan la visión global de su tarea, pierden el hilo de lo que están haciendo o se detienen con un resultado parcial.

Los agentes de ejecución prolongada utilizan un plan y varios agentes distintos que revisan el trabajo de los demás para poder llevar a cabo tareas más grandes y complejas hasta su completa finalización.

Hallazgos hasta la fecha

Los primeros participantes en el programa de research preview usaron agentes de larga duración para implementar grandes funcionalidades, refactorizar sistemas complejos, corregir errores difíciles, renovar el rendimiento y crear pruebas de alta cobertura.

Publiqué dos revisiones completas de arquitectura. Es una herramienta increíble para trabajo del tipo "no sé si esto es posible, pero tengo curiosidad por verlo". Puedo ejecutar cinco en paralelo, para todo, desde crear window managers para Mac hasta integrar CEF en Tauri.

Theo Browne
CEO, T3 Chat

Los agentes solían ejecutarse durante más de un día, produciendo PRs que se integraban con un trabajo de seguimiento mínimo. Los usuarios podían apartarse, concentrarse en otras tareas, cerrar su portátil y volver a encontrarse con soluciones ya funcionando.

Planeé que este proyecto tomara todo un trimestre en completarse. Con los agentes de larga duración de Cursor, ese plazo se redujo a solo un par de días. Y pude hacer dos o tres proyectos adicionales. Puedo iniciar una tarea de 52 horas que no tengo que vigilar y volver a un gran PR con 151k líneas de código.

Zack Jackson
Arquitecto de Infraestructura, Rspack

En comparación con los agentes síncronos, los agentes de larga duración fueron más exhaustivos en su enfoque y generaron código mucho más listo para producción.

La parte mágica del nuevo harness de pruebas es permitir que el mismo modelo deje algo listo para producción. Probé el mismo prompt de corrección de errores localmente frente a un agente de larga duración, ambos con Codex 5.3. El agente local lo corrigió bastante rápido, pero el de larga duración fue más allá: encontró casos límite, corrigió ocurrencias similares y creó pruebas de alta cobertura.

Tejas Haveri
CTO, DevAccel-Labs

Uso de agentes de larga duración en Cursor

Durante el último mes, hemos estado probando internamente los límites de los agentes de larga duración. Los hemos utilizado tanto para experimentos, para ver hasta dónde podíamos llevarlos, como para trabajo en producción en el propio Cursor. Estas son algunas de las tareas que les asignamos a los agentes de larga duración y que desde entonces hemos fusionado.

Optimización de un renderizador de vídeo

Le pedimos a un agente que optimizara un renderizador de vídeo cuyo rendimiento estaba limitando el despliegue. Completó una migración total a Rust e implementó kernels personalizados, reproduciendo una salida visual idéntica trabajando únicamente a partir de la lógica original.

Acceso a red basado en políticas para código en sandbox

Necesitábamos controles de políticas de red definidos en JSON y un proxy HTTP local para procesos en sandbox. El proxy tenía que funcionar correctamente con distintos protocolos, aplicar las políticas de forma consistente y fallar de manera segura sin permitir tráfico bloqueado. El agente de larga duración creó una PR de diez mil líneas que tuvo muy pocos problemas cuando ejecutamos una gran batería de pruebas sobre ella. El trabajo de seguimiento consistió principalmente en cambios que no especificamos en nuestra solicitud inicial.

Compatibilidad con sudo en Cursor CLI

Algunas tareas rompen los agentes de la CLI en el momento en que se encuentran con sudo, especialmente las relacionadas con administración de sistemas u operaciones. Pedimos a un agente de larga duración que implementara un sistema seguro de solicitud de contraseña de sudo, lo que requería unir múltiples subsistemas y razonar sobre los flujos de autenticación de Unix. Produjo una implementación funcional que Cursor CLI utiliza actualmente.

Hacia bases de código autónomas

Los agentes de larga duración en Cursor son un hito temprano en el camino hacia bases de código autónomas, donde los agentes pueden encargarse de más trabajo con menos intervención humana. Ahora es posible delegar tareas más grandes y volver horas o días después a soluciones ya funcionando.

Estamos trabajando en mejorar la colaboración entre agentes de larga duración para que puedan dividir proyectos más grandes en flujos de trabajo paralelos y abordar iniciativas aún más ambiciosas con menos intervención humana.

También estamos desarrollando nuevas herramientas para manejar el volumen de código que se genera ahora. A medida que el costo de la generación de código siga disminuyendo, necesitaremos nuevos enfoques para desplegar ese código en producción de forma segura.

Prueba hoy los agentes de larga duración en cursor.com/agents.

Archivado en: Producto

Autor: Cursor Team

Ampliamos nuestra versión preliminar de investigación sobre agentes de ejecución prolongada · Cursor