El impacto en la productividad de los agentes de programación
Nos interesan las preguntas abiertas acerca de cómo los desarrolladores usan el Agente de Cursor en su trabajo y el impacto en la productividad de Cursor dentro de las organizaciones.
Suproteem Sarkar, profesor adjunto de finanzas e IA aplicada en la Universidad de Chicago, realizó recientemente un estudio analizando los efectos iniciales de los agentes en decenas de miles de usuarios de Cursor.
El estudio concluyó que las empresas fusionan un 39% más PR después de que el Agente de Cursor pasara a ser el valor predeterminado. También concluyó que los desarrolladores con experiencia redactan más planes antes de programar y parecen más competentes con los agentes.
Aceptar código escrito por agentes
El estudio analizó dos señales: con qué frecuencia los usuarios envían solicitudes al agente y con qué frecuencia aceptan sus ediciones de código. Que un usuario acepte las ediciones del agente depende de qué tan bien el resultado se alinee con su intención y de su umbral para aplicar código generado.
Los desarrolladores junior tienen más probabilidades de aceptar código de Tab, mientras que los desarrolladores senior tienen más probabilidades de aceptar código de agentes. Por cada desviación estándar adicional en años de experiencia, vemos un aumento correspondiente de ~6% en la tasa de aceptación de agentes con respecto a la media.


Habríamos esperado que los desarrolladores con menos experiencia tendieran a usar y aceptar agentes con mayor frecuencia: ¡parece que ocurre lo contrario!
Algunas teorías:
-
Los desarrolladores con experiencia pueden ser más hábiles usando agentes, ya sea mediante reglas personalizadas o gestionando el contexto de forma más eficaz.
-
Tienen más confianza en su capacidad para evaluar cambios de código escritos por agentes, lo que aumenta su disposición a aceptarlos.
-
Trabajan en tareas mejor delimitadas, que pueden ser más fáciles de completar para los agentes en menos iteraciones.
Impacto en la productividad
El estudio midió cómo cambiaron los indicadores de rendimiento y calidad después de que Agente se convirtiera en el modo predeterminado en Cursor. Comparó estas métricas entre un grupo de organizaciones "elegibles" que ya usaban Cursor antes de que se lanzara Agente y un grupo "de referencia" de organizaciones que no usaban Cursor durante el período de análisis. Encontró que la tasa de PR fusionadas aumentó un 39% en relación con la tendencia temporal del grupo de referencia.


En otras métricas, el estudio encontró que la tasa de reversión de PR no cambió de forma significativa y que la tasa de corrección de errores disminuyó ligeramente. También encontró que el promedio de líneas editadas y el promedio de archivos modificados por PR fusionada no cambiaron de forma significativa.
Comportamiento de los usuarios y aplicaciones
El contenido de las solicitudes indica cómo los desarrolladores utilizan agentes y las acciones que pretenden realizar. En una muestra de 1,000 usuarios, hubo tres categorías amplias de solicitudes que daban inicio a una conversación: implementación de código, explicación de código y errores, y planificación de una acción. La mayoría de las solicitudes que iniciaban conversaciones (~61%) fueron de implementación, donde se indica al agente que genere código.


El estudio encontró que los desarrolladores con más experiencia tienen más probabilidades de planificar una acción antes de generar código.
Conclusión
Todavía no existe una métrica única y definitiva para medir el impacto económico de la IA en la ingeniería de software. Como con cualquier tecnología nueva, aprovechar todo el valor de la IA llevará tiempo.
Estos primeros resultados son alentadores y nos gustaría seguir analizando el impacto de Cursor en la productividad.
Para leer el estudio completo, puedes acceder a él aquí.