Composer: 強化学習で構築する高速フロンティアモデル

Composer は、ソフトウェアエンジニアリングにおける高度な知能と高速性のために設計された新しいエージェントモデルです。社内ベンチマークでは、類似モデルの 4 倍の生成速度を維持しつつ、最先端クラスのコーディング性能を達成しています。

この結果は、大規模なコードベースにおける実世界のソフトウェアエンジニアリング課題を解かせるようにモデルを学習させることで実現しました。学習中、Composer には本番環境レベルの検索・編集ツール群へのアクセス権が与えられ、多様で難易度の高い問題を効率的に解くことが求められます。最終的に得られるのは、Cursor のエージェントとしての高速利用に最適化された大規模モデルです。

私たちのモチベーションは、独自の補完モデルである Cursor Tab を開発してきた経験から生まれました。開発者はしばしば、インタラクティブに使えてコーディングのフローを維持できる「もっとも賢いモデル」を求めていることがわかりました。開発プロセスの中で、より高速なエージェントモデルがどのような影響をもたらすかを理解するため、Cheetah というコードネームのプロトタイプエージェントモデルを試作しました。Composer は、このモデルをさらに賢くしたもので、インタラクティブな体験に十分な高速性を備えることで、心地よいコーディングを実現します。

Composer は Mixture-of-Experts (MoE) 型の言語モデルで、長いコンテキストの生成と理解をサポートします。多様な開発環境での強化学習（RL）を通じて、ソフトウェアエンジニアリングに特化させています。各学習イテレーションで、モデルには問題の説明が与えられ、コード編集、プランの提示、あるいは有益な回答など、最適な応答を出すよう指示されます。モデルはファイルの読み書きといったシンプルなツールだけでなく、ターミナルコマンドやコードベース全体に対するセマンティックサーチといったより強力なツールにもアクセスできます。

進捗を測るために、ソフトウェア開発者にとっての有用性をできるだけ忠実に測定する評価指標を構築しました。私たちのベンチマークである Cursor Bench は、Cursor のエンジニアや研究者からの実際のエージェントリクエストと、それらに対する手作業でキュレートされた最適解から構成されています。この評価により、エージェントの正確性だけでなく、既存の抽象化やソフトウェアエンジニアリングのプラクティスへの準拠度も測定できます。

強化学習を用いることで、ソフトウェアエンジニアリングに効果的なモデルへと能動的に特化させることができます。応答速度はインタラクティブな開発において極めて重要な要素であるため、ツール利用の選択を効率的に行い、可能な限り並列性を最大化するようモデルにインセンティブを与えています。さらに、根拠のない主張や不要な応答を最小化することで、役に立つアシスタントとして振る舞うよう学習させています。また RL の過程で、モデルは自律的に複雑な検索の実行、リンターエラーの修正、ユニットテストの作成と実行といった有用な振る舞いも学習していることがわかりました。

大規模な MoE モデルを効率的に学習させるには、インフラ構築とシステム研究への大きな投資が必要です。私たちは、PyTorch と Ray を活用したカスタム学習インフラを構築し、大規模な非同期強化学習を実現しました。MXFP8 MoE カーネルをエキスパート並列およびハイブリッドなシャーディング方式のデータ並列と組み合わせることで、通信コストを最小限に抑えつつ、数千台規模の NVIDIA GPU までトレーニングをスケールできます。加えて、MXFP8 で学習することで、学習後の量子化を行うことなく、高速な推論速度を提供できます。

RL 中、私たちはモデルが Cursor Agent ハーネス内のあらゆるツールを呼び出せるようにしたいと考えています。これらのツールによって、コードの編集、semantic search の利用、grep による文字列検索、ターミナルコマンドの実行が可能になります。私たちのスケールにおいて、モデルにこれらのツールを効果的に呼び出す方法を学習させるには、クラウド上で数十万ものサンドボックス化したコーディング環境を並列に実行する必要があります。このワークロードを支えるため、私たちは Background Agents 向けに構築していた既存インフラを拡張し、トレーニング実行のバースト性の高い特性とスケールに対応できるよう仮想マシンスケジューラを書き換えました。これにより、RL 環境と本番環境をシームレスに統合することができました。

Cursor はソフトウェアエンジニアリング向けのツールを開発しており、自分たちが開発したツールを積極的に活用しています。Composer 開発の動機の一つは、自分たち自身の仕事でも真っ先に使いたくなるエージェントを作ることでした。ここ数週間で、社内の多くのメンバーが、日々のソフトウェア開発に Composer を使っていることがわかってきました。今回のリリースにより、あなたにとっても Composer が価値あるツールになることを願っています。

—

¹ Cursor のツールハーネス内の社内ベンチマークで測定しました。モデルはスコアに基づいてクラス分けし、各クラス内で最も性能の高いモデルを報告しています。"Fast Frontier" には Haiku 4.5 や Gemini Flash 2.5 など、高効率な推論向けに設計されたモデルが含まれます。"Best Open" には Qwen Coder や GLM 4.6 など、最近リリースされたオープンウェイトモデルが含まれます。"Frontier 7/2025" は本年 7 月時点で利用可能な最良のモデルです。"Best Frontier" には GPT-5 と Sonnet 4.5 が含まれ、どちらも Composer を上回る性能を示します。Tokens per Second の計算においては、トークンを最新の Anthropic tokenizer に基づいてモデル間で標準化しています。

—

—