Présentation de Composer 1.5

Il y a quelques mois, nous avons lancé notre premier modèle de codage avec agent, Composer 1. Depuis, nous avons apporté des améliorations significatives aux capacités de programmation du modèle.

Notre nouvelle version, Composer 1.5, offre un excellent équilibre entre vitesse et intelligence pour un usage quotidien. Composer 1.5 a été construit en étendant par 20 l’apprentissage par renforcement sur le même modèle préentraîné. La puissance de calcul utilisée pour le post‑entraînement de Composer 1.5 dépasse même celle utilisée pour préentraîner le modèle de base.

Nous constatons des améliorations continues des capacités de codage à mesure que nous changeons d’échelle. Mesuré par notre benchmark interne de problèmes de programmation réels, nous observons que le modèle dépasse rapidement Composer 1 et continue de gagner en performance. Les gains sont les plus significatifs sur les tâches difficiles.

Composer 1.5 est un modèle conçu pour raisonner. Lorsqu’il répond aux requêtes, le modèle génère des jetons de réflexion pour raisonner sur la base de code de l’utilisateur et planifier les prochaines étapes. Nous constatons que ces phases de réflexion sont essentielles à l’intelligence du modèle. En parallèle, nous voulions que Composer 1.5 reste rapide et interactif pour une utilisation quotidienne. Pour trouver le bon équilibre, le modèle est entraîné à répondre rapidement aux problèmes faciles avec un minimum de réflexion, tandis que sur les problèmes difficiles il réfléchira jusqu’à trouver une réponse satisfaisante.¹

Résultats de benchmark de Composer 1.5 sur Terminal-Bench 2.0

Pour gérer les tâches de longue durée, Composer 1.5 est capable de produire ses propres résumés. Cela permet au modèle de continuer à explorer une solution même lorsqu’il arrive au bout du contexte disponible. Nous intégrons cette capacité d’auto‑résumé à Composer 1.5 dans le cadre du RL en lui demandant de produire un résumé utile lorsque le contexte est épuisé pendant l’entraînement. Cela peut se déclencher plusieurs fois de manière récursive sur des exemples difficiles. Nous constatons que l’auto‑résumé permet au modèle de conserver sa précision initiale lorsque la longueur de contexte varie.

Composer 1.5 est un modèle nettement plus performant que Composer 1 et nous le recommandons pour une utilisation interactive. Son entraînement démontre que le RL pour le code peut être continuellement mis à l’échelle avec des gains d’intelligence prévisibles.

En savoir plus sur la tarification de Composer 1.5 ici.

Terminal-Bench 2.0 est un benchmark d’évaluation d’agents pour une utilisation dans le terminal, maintenu par le Laude Institute. Les scores des modèles Anthropic utilisent le harness Claude Code et les scores des modèles OpenAI utilisent le harness Simple Codex. Notre score Cursor a été calculé à l’aide de l’infrastructure d’évaluation Harbor officielle (le harness désigné pour Terminal-Bench 2.0) avec les paramètres par défaut du benchmark. Nous avons exécuté 2 itérations par paire modèle‑agent et indiquons la moyenne. Vous trouverez plus de détails sur le benchmark sur le site officiel de Terminal Bench. Pour les autres modèles que Composer 1.5, nous avons pris le score maximal entre le score du classement officiel et le score obtenu sur notre infrastructure. ↩

En savoir plus sur la tarification de Composer 1.5 ici.

Terminal-Bench 2.0 est un benchmark d’évaluation d’agents pour une utilisation dans le terminal, maintenu par le Laude Institute. Les scores des modèles Anthropic utilisent le harness Claude Code et les scores des modèles OpenAI utilisent le harness Simple Codex. Notre score Cursor a été calculé à l’aide de l’infrastructure d’évaluation Harbor officielle (le harness désigné pour Terminal-Bench 2.0) avec les paramètres par défaut du benchmark. Nous avons exécuté 2 itérations par paire modèle‑agent et indiquons la moyenne. Vous trouverez plus de détails sur le benchmark sur le site officiel de Terminal Bench. Pour les autres modèles que Composer 1.5, nous avons pris le score maximal entre le score du classement officiel et le score obtenu sur notre infrastructure. ↩

En savoir plus sur la tarification de Composer 1.5 ici.

Terminal-Bench 2.0 est un benchmark d’évaluation d’agents pour une utilisation dans le terminal, maintenu par le Laude Institute. Les scores des modèles Anthropic utilisent le harness Claude Code et les scores des modèles OpenAI utilisent le harness Simple Codex. Notre score Cursor a été calculé à l’aide de l’infrastructure d’évaluation Harbor officielle (le harness désigné pour Terminal-Bench 2.0) avec les paramètres par défaut du benchmark. Nous avons exécuté 2 itérations par paire modèle‑agent et indiquons la moyenne. Vous trouverez plus de détails sur le benchmark sur le site officiel de Terminal Bench. Pour les autres modèles que Composer 1.5, nous avons pris le score maximal entre le score du classement officiel et le score obtenu sur notre infrastructure. ↩

Présentation de Composer 1.5

Articles similaires

Présentation de Composer 1.5

Articles similaires

Présentation de Composer 1.5

Articles similaires