Presentamos Composer 1.5

Hace unos meses, lanzamos nuestro primer modelo de programación basado en agentes, Composer 1. Desde entonces, hemos realizado mejoras significativas en la capacidad de programación del modelo.

Nuestra nueva versión, Composer 1.5, logra un sólido equilibrio entre velocidad e inteligencia para el uso diario. Composer 1.5 se creó escalando el aprendizaje por refuerzo (RL) 20 veces más sobre el mismo modelo preentrenado. El cómputo utilizado en nuestro postentrenamiento de Composer 1.5 incluso supera la cantidad usada para preentrenar el modelo base.

A medida que escalamos, seguimos observando mejoras en la capacidad de programación. Medido con nuestro benchmark interno de problemas de programación del mundo real, vemos que el modelo supera rápidamente a Composer 1 y continúa aumentando su rendimiento. Las mejoras son más significativas en las tareas más difíciles.

Composer 1.5 es un modelo capaz de razonar. Mientras responde a las consultas, el modelo genera tokens de razonamiento para analizar la base de código del usuario y planear los siguientes pasos. Observamos que estas etapas de razonamiento son fundamentales para la inteligencia del modelo. Al mismo tiempo, queríamos que Composer 1.5 siguiera siendo rápido e interactivo para el uso diario. Para lograr un equilibrio, el modelo está entrenado para responder rápidamente en problemas fáciles con un razonamiento mínimo, mientras que en problemas difíciles pensará hasta encontrar una respuesta satisfactoria.¹

Resultados de benchmark de Composer 1.5 en Terminal-Bench 2.0

Para manejar tareas de ejecución prolongada, Composer 1.5 tiene la capacidad de auto-resumirse. Esto le permite al modelo seguir explorando una solución incluso cuando se queda sin contexto disponible. Entrenamos esta capacidad de auto-resumen en Composer 1.5 como parte del RL, pidiéndole que produzca un resumen útil cuando el contexto se agota durante el entrenamiento. Esto puede activarse varias veces de forma recursiva en ejemplos difíciles. Observamos que el auto-resumen permite que el modelo mantenga su precisión original a medida que varía la longitud del contexto.

Composer 1.5 es un modelo considerablemente más potente que Composer 1 y lo recomendamos para uso interactivo. Su entrenamiento demuestra que el RL para programación puede escalarse de forma continua con mejoras de inteligencia predecibles.

Obtén más información sobre los precios de Composer 1.5 aquí.

Terminal-Bench 2.0 es un benchmark de evaluación de agentes para uso en terminal mantenido por el Laude Institute. Las puntuaciones de los modelos de Anthropic usan el harness Claude Code y las puntuaciones de los modelos de OpenAI usan el harness Simple Codex. Nuestra puntuación de Cursor se calculó usando el framework de evaluación Harbor oficial (el harness designado para Terminal-Bench 2.0) con la configuración predeterminada del benchmark. Ejecutamos 2 iteraciones por par modelo-agente y reportamos el promedio. Puedes encontrar más detalles sobre el benchmark en el sitio web oficial de Terminal Bench. Para modelos distintos de Composer 1.5, tomamos la puntuación máxima entre la puntuación del ranking oficial y la puntuación registrada ejecutándolo en nuestra infraestructura. ↩

Hace unos meses, lanzamos nuestro primer modelo de programación basado en agentes, Composer 1. Desde entonces, hemos realizado mejoras significativas en la capacidad de programación del modelo.

Obtén más información sobre los precios de Composer 1.5 aquí.

Terminal-Bench 2.0 es un benchmark de evaluación de agentes para uso en terminal mantenido por el Laude Institute. Las puntuaciones de los modelos de Anthropic usan el harness Claude Code y las puntuaciones de los modelos de OpenAI usan el harness Simple Codex. Nuestra puntuación de Cursor se calculó usando el framework de evaluación Harbor oficial (el harness designado para Terminal-Bench 2.0) con la configuración predeterminada del benchmark. Ejecutamos 2 iteraciones por par modelo-agente y reportamos el promedio. Puedes encontrar más detalles sobre el benchmark en el sitio web oficial de Terminal Bench. Para modelos distintos de Composer 1.5, tomamos la puntuación máxima entre la puntuación del ranking oficial y la puntuación registrada ejecutándolo en nuestra infraestructura. ↩

Hace unos meses, lanzamos nuestro primer modelo de programación basado en agentes, Composer 1. Desde entonces, hemos realizado mejoras significativas en la capacidad de programación del modelo.

Obtén más información sobre los precios de Composer 1.5 aquí.

Terminal-Bench 2.0 es un benchmark de evaluación de agentes para uso en terminal mantenido por el Laude Institute. Las puntuaciones de los modelos de Anthropic usan el harness Claude Code y las puntuaciones de los modelos de OpenAI usan el harness Simple Codex. Nuestra puntuación de Cursor se calculó usando el framework de evaluación Harbor oficial (el harness designado para Terminal-Bench 2.0) con la configuración predeterminada del benchmark. Ejecutamos 2 iteraciones por par modelo-agente y reportamos el promedio. Puedes encontrar más detalles sobre el benchmark en el sitio web oficial de Terminal Bench. Para modelos distintos de Composer 1.5, tomamos la puntuación máxima entre la puntuación del ranking oficial y la puntuación registrada ejecutándolo en nuestra infraestructura. ↩

Presentamos Composer 1.5

Entradas relacionadas

Presentamos Composer 1.5

Entradas relacionadas

Presentamos Composer 1.5

Entradas relacionadas