Composer 1.5 のご紹介

数か月前、私たちは最初のエージェント型コーディングモデルである Composer 1 をリリースしました。それ以来、このモデルのコーディング能力を大きく向上させてきました。

今回の新リリースである Composer 1.5 は、日常利用において、速度とインテリジェンスの強力なバランスを実現しています。Composer 1.5 は、同じ事前学習モデルに対して強化学習をさらに 20 倍スケールさせることで構築されました。Composer 1.5 のポストトレーニングで使用したコンピュート量は、元のモデルの事前学習をも上回っています。

スケールさせるにつれて、コーディング能力の改善が継続的に見られます。実世界のコーディング問題からなる社内ベンチマークによると、モデルはすぐに Composer 1 を上回り、その後も性能が向上し続けています。改善幅は、特に難易度の高いタスクで顕著です。

Composer 1.5 は「考える」モデルです。クエリに応答する過程で、ユーザーのコードベースについて推論し、次のアクションを計画するための thinking トークンを生成します。これらの思考フェーズが、モデルのインテリジェンスにとって重要であることがわかりました。同時に、Composer 1.5 を日常的な利用でも高速かつインタラクティブなモデルに保ちたいと考えました。そのバランスを取るために、このモデルは、簡単な問題に対しては思考を最小限にしてすばやく応答し、難しい問題に対しては、納得のいく答えが見つかるまで考え続けるように訓練されています。¹

Composer 1.5 の Terminal-Bench 2.0 におけるベンチマーク結果

より長時間実行されるタスクに対応するため、Composer 1.5 には self-summarize (自己要約) 機能が備わっています。これにより、利用可能なコンテキストが尽きた場合でも、モデルは解決策の探索を継続できます。トレーニング中にコンテキストが枯渇したとき、有用なサマリーを生成するよう求めることで、自己要約を RL の一部として Composer 1.5 に学習させています。難しい例では、これが再帰的に複数回トリガーされることもあります。自己要約により、コンテキスト長が変化しても、モデルが元の精度を維持できることがわかりました。

Composer 1.5 は Composer 1 と比べて大幅に高性能なモデルであり、インタラクティブな用途での利用を推奨します。このトレーニングから、コーディング向けの RL は、予測しやすいかたちで知的能力を向上させながら継続的にスケールできることが示されました。

Composer 1.5 の料金についてはこちらをご覧ください。

Terminal-Bench 2.0 は、Laude Institute によって管理されている、ターミナル環境での利用を対象としたエージェント評価用ベンチマークです。Anthropic のモデルスコアは Claude Code ハーネスを使用し、OpenAI のモデルスコアは Simple Codex ハーネスを使用しています。Cursor のスコアは、デフォルトのベンチマーク設定で、公式の Harbor evaluation framework（Terminal-Bench 2.0 向けに指定されているハーネス）を用いて算出しました。各モデルとエージェントの組み合わせごとに 2 回ずつ実行し、その平均値を報告しています。ベンチマークの詳細については、公式の Terminal Bench website を参照してください。Composer 1.5 以外のモデルについては、official leaderboard に掲載されているスコアと、私たちのインフラ上で実行して記録したスコアのうち、高い方を採用しました。↩

Composer 1.5 の料金についてはこちらをご覧ください。

Terminal-Bench 2.0 は、Laude Institute によって管理されている、ターミナル環境での利用を対象としたエージェント評価用ベンチマークです。Anthropic のモデルスコアは Claude Code ハーネスを使用し、OpenAI のモデルスコアは Simple Codex ハーネスを使用しています。Cursor のスコアは、デフォルトのベンチマーク設定で、公式の Harbor evaluation framework（Terminal-Bench 2.0 向けに指定されているハーネス）を用いて算出しました。各モデルとエージェントの組み合わせごとに 2 回ずつ実行し、その平均値を報告しています。ベンチマークの詳細については、公式の Terminal Bench website を参照してください。Composer 1.5 以外のモデルについては、official leaderboard に掲載されているスコアと、私たちのインフラ上で実行して記録したスコアのうち、高い方を採用しました。↩

Composer 1.5 の料金についてはこちらをご覧ください。

Terminal-Bench 2.0 は、Laude Institute によって管理されている、ターミナル環境での利用を対象としたエージェント評価用ベンチマークです。Anthropic のモデルスコアは Claude Code ハーネスを使用し、OpenAI のモデルスコアは Simple Codex ハーネスを使用しています。Cursor のスコアは、デフォルトのベンチマーク設定で、公式の Harbor evaluation framework（Terminal-Bench 2.0 向けに指定されているハーネス）を用いて算出しました。各モデルとエージェントの組み合わせごとに 2 回ずつ実行し、その平均値を報告しています。ベンチマークの詳細については、公式の Terminal Bench website を参照してください。Composer 1.5 以外のモデルについては、official leaderboard に掲載されているスコアと、私たちのインフラ上で実行して記録したスコアのうち、高い方を採用しました。↩

Composer 1.5 のご紹介

関連記事

Composer 1.5 のご紹介

関連記事

Composer 1.5 のご紹介

関連記事