Einführung von Composer 1.5

Vor einigen Monaten haben wir unser erstes Agent-basiertes Coding-Modell, Composer 1, veröffentlicht. Seitdem haben wir die Programmierfähigkeiten des Modells deutlich verbessert.

Unsere neue Version, Composer 1.5, bietet für den täglichen Einsatz ein starkes Gleichgewicht zwischen Geschwindigkeit und Intelligenz. Composer 1.5 wurde entwickelt, indem wir Reinforcement Learning auf demselben vortrainierten Modell um das 20-Fache weiter skaliert haben. Der Compute-Aufwand für das Post-Training von Composer 1.5 übertrifft sogar den Aufwand für das Pretraining des Basismodells.

Mit zunehmender Skalierung sehen wir kontinuierliche Verbesserungen der Programmierfähigkeit. Gemessen an unserem internen Benchmark mit realen Programmierproblemen stellen wir fest, dass das Modell Composer 1 schnell übertrifft und seine Performance weiter steigert. Die Verbesserungen sind bei anspruchsvollen Aufgaben am deutlichsten.

Composer 1.5 ist ein „Thinking Model“. Beim Beantworten von Anfragen erzeugt das Modell „Thinking Tokens“, um über die Codebasis des Nutzers zu schlussfolgern und die nächsten Schritte zu planen. Wir stellen fest, dass diese Denkphasen entscheidend für die Intelligenz des Modells sind. Gleichzeitig wollten wir Composer 1.5 für den täglichen Einsatz schnell und interaktiv halten. Um dieses Gleichgewicht zu erreichen, wurde das Modell so trainiert, dass es bei einfachen Problemen mit minimalem Nachdenken schnell antwortet, während es bei schwierigen Problemen so lange „denkt“, bis es eine zufriedenstellende Antwort gefunden hat.¹

Composer-1.5-Benchmark-Ergebnisse auf Terminal-Bench 2.0

Um länger laufende Aufgaben zu bewältigen, verfügt Composer 1.5 über die Fähigkeit zur Selbstzusammenfassung. Dadurch kann das Modell weiter nach einer Lösung suchen, selbst wenn der verfügbare Kontext aufgebraucht ist. Wir bringen Composer 1.5 die Selbstzusammenfassung im Rahmen des RL-Trainings bei, indem wir es anweisen, eine nützliche Zusammenfassung zu erzeugen, sobald im Training der Kontext ausgeht. Dies kann sich bei schwierigen Beispielen mehrfach rekursiv auslösen. Wir stellen fest, dass die Selbstzusammenfassung es dem Modell ermöglicht, seine ursprüngliche Genauigkeit beizubehalten, wenn sich die Kontextlänge verändert.

Composer 1.5 ist ein deutlich stärkeres Modell als Composer 1, und wir empfehlen es für die interaktive Nutzung. Das Training zeigt, dass sich RL für Coding mit vorhersagbaren Intelligenzgewinnen kontinuierlich skalieren lässt.

Weitere Informationen zu den Preisen von Composer 1.5 finden Sie hier.

Terminal-Bench 2.0 ist ein Benchmark zur Bewertung von Agents für den Terminaleinsatz, der vom Laude Institute gepflegt wird. Die Scores der Anthropic-Modelle verwenden das Claude-Code-Harness und die Scores der OpenAI-Modelle das Simple-Codex-Harness. Unser Cursor-Score wurde mit dem offiziellen Harbor-Evaluierungsframework (dem vorgesehenen Harness für Terminal-Bench 2.0) mit den Standard-Benchmark-Einstellungen berechnet. Wir haben 2 Durchläufe pro Modell-Agent-Paar durchgeführt und den Durchschnitt angegeben. Weitere Details zum Benchmark finden Sie auf der offiziellen Terminal-Bench-Website. Für andere Modelle als Composer 1.5 haben wir den Maximalwert zwischen dem Score der offiziellen Bestenliste und dem Score, der beim Ausführen in unserer Infrastruktur aufgezeichnet wurde, verwendet. ↩

Vor einigen Monaten haben wir unser erstes Agent-basiertes Coding-Modell, Composer 1, veröffentlicht. Seitdem haben wir die Programmierfähigkeiten des Modells deutlich verbessert.

Weitere Informationen zu den Preisen von Composer 1.5 finden Sie hier.

Terminal-Bench 2.0 ist ein Benchmark zur Bewertung von Agents für den Terminaleinsatz, der vom Laude Institute gepflegt wird. Die Scores der Anthropic-Modelle verwenden das Claude-Code-Harness und die Scores der OpenAI-Modelle das Simple-Codex-Harness. Unser Cursor-Score wurde mit dem offiziellen Harbor-Evaluierungsframework (dem vorgesehenen Harness für Terminal-Bench 2.0) mit den Standard-Benchmark-Einstellungen berechnet. Wir haben 2 Durchläufe pro Modell-Agent-Paar durchgeführt und den Durchschnitt angegeben. Weitere Details zum Benchmark finden Sie auf der offiziellen Terminal-Bench-Website. Für andere Modelle als Composer 1.5 haben wir den Maximalwert zwischen dem Score der offiziellen Bestenliste und dem Score, der beim Ausführen in unserer Infrastruktur aufgezeichnet wurde, verwendet. ↩

Vor einigen Monaten haben wir unser erstes Agent-basiertes Coding-Modell, Composer 1, veröffentlicht. Seitdem haben wir die Programmierfähigkeiten des Modells deutlich verbessert.

Weitere Informationen zu den Preisen von Composer 1.5 finden Sie hier.

Terminal-Bench 2.0 ist ein Benchmark zur Bewertung von Agents für den Terminaleinsatz, der vom Laude Institute gepflegt wird. Die Scores der Anthropic-Modelle verwenden das Claude-Code-Harness und die Scores der OpenAI-Modelle das Simple-Codex-Harness. Unser Cursor-Score wurde mit dem offiziellen Harbor-Evaluierungsframework (dem vorgesehenen Harness für Terminal-Bench 2.0) mit den Standard-Benchmark-Einstellungen berechnet. Wir haben 2 Durchläufe pro Modell-Agent-Paar durchgeführt und den Durchschnitt angegeben. Weitere Details zum Benchmark finden Sie auf der offiziellen Terminal-Bench-Website. Für andere Modelle als Composer 1.5 haben wir den Maximalwert zwischen dem Score der offiziellen Bestenliste und dem Score, der beim Ausführen in unserer Infrastruktur aufgezeichnet wurde, verwendet. ↩

Einführung von Composer 1.5

Ähnliche Beiträge

Einführung von Composer 1.5

Ähnliche Beiträge

Einführung von Composer 1.5

Ähnliche Beiträge