Composer 2 vorgestellt

von Cursor Team in Forschung

Composer 2 ist jetzt in Cursor verfügbar.

Beim Programmieren erreicht es Frontier-Niveau und kostet 2.50/M Ausgabe-Token, was es zu einer neuen, optimalen Kombination aus KI und Kosten macht.

Effizienz und Qualität von Composer 2 auf CursorBenchEffizienz und Qualität von Composer 2 auf CursorBench

Programmierintelligenz auf Frontier-Niveau

Wir verbessern die Qualität unseres Modells rasant. Composer 2 liefert große Verbesserungen bei allen von uns gemessenen Benchmarks, einschließlich Terminal-Bench 2.01 und SWE-bench Multilingual:

Composer 2 Terminal-Bench 2.0-ErgebnisseComposer 2 Terminal-Bench 2.0-Ergebnisse
ModellCursorBenchTerminal-Bench 2.0SWE-bench Multilingual
Composer 261.361.773.7
Composer 1.544.247.965.9
Composer 138.040.056.9

Diese Qualitätsverbesserungen gehen auf unseren ersten fortgesetzten Pretraining-Lauf zurück, der eine deutlich stärkere Grundlage für die Skalierung unseres Reinforcement Learning schafft.

Auf dieser Grundlage trainieren wir mit Reinforcement Learning an Programmieraufgaben mit langem Horizont. Composer 2 ist in der Lage, anspruchsvolle Aufgaben zu lösen, die Hunderte von Aktionen erfordern.

Probieren Sie Composer 2 aus

Composer 2 kostet 2.50/M Ausgabe-Token.

Es gibt auch eine schnellere Variante mit derselben Leistungsfähigkeit für 7.50/M Ausgabe-Token, die niedrigere Kosten als andere schnelle Modelle hat2. Wir machen die schnelle Variante zur Standardoption. Ausführliche Details finden Sie in unserer Modelldokumentation.

Geschwindigkeit und Kosten der schnellen Composer-2-Variante im Vergleich zu anderen ModellenGeschwindigkeit und Kosten der schnellen Composer-2-Variante im Vergleich zu anderen Modellen

Bei Individual-Plänen ist die Composer-Nutzung Teil eines eigenständigen Nutzungspools mit großzügigem Inklusivkontingent. Probieren Sie Composer 2 noch heute in Cursor aus.


  1. Terminal-Bench 2.0 ist ein Benchmark zur Bewertung von Agenten bei der Terminal-Nutzung, der vom Laude Institute gepflegt wird. Für Anthropic-Modelle werden die Bewertungen mit dem Claude Code Harness ermittelt, für OpenAI-Modelle mit dem Simple Codex Harness. Unser Cursor-Wert wurde mit dem offiziellen Harbor-Evaluierungsframework (dem vorgesehenen Harness für Terminal-Bench 2.0) mit den Standard-Benchmark-Einstellungen berechnet. Wir haben pro Modell-Agent-Paar 5 Iterationen ausgeführt und den Durchschnitt angegeben. Mehr Details zum Benchmark finden Sie auf der offiziellen Terminal-Bench-Website. Für andere Modelle außer Composer 2 haben wir den Maximalwert aus dem Ergebnis auf dem offiziellen Leaderboard und dem bei Ausführung in unserer Infrastruktur gemessenen Wert verwendet.
  2. Die Token pro Sekunde (TPS) für alle Modelle stammen aus einer Momentaufnahme des Cursor-Traffics vom 18. März 2026. Die Token-Größe für Composer- und GPT-Modelle ist ähnlich. Anthropic-Token sind etwa 15 % kleiner, und die TPS-Zahl wurde entsprechend normalisiert. Entsprechend wurde der Preis pro Ausgabe-Token für Nicht-Anthropic-Modelle skaliert, um dieselbe Änderung von etwa 15 % zu berücksichtigen. Die Geschwindigkeit kann je nach Kapazität des Anbieters und Verbesserungen im Laufe der Zeit variieren.

Kategorisiert unter: Forschung

Von: Cursor Team

Composer 2 vorgestellt · Cursor