Composer:RLで高速なフロンティアモデルを構築する
Composer は、ソフトウェアエンジニアリングの知見と速度を両立するよう設計された新しいエージェントモデルです。社内ベンチマークでは、同等モデルの4倍の生成速度で、最先端のコーディング成果を達成しています。
これらの成果は、大規模コードベースで実際のソフトウェアエンジニアリング課題をやり遂げられるようにモデルを訓練することで実現しています。訓練中、Composer には本番環境の検索・編集ツール一式へのアクセスが与えられ、多様で難易度の高い問題を効率的に解くことが課されます。最終的に得られるのは、Cursor のエージェントとして高速に活用できるよう最適化された大規模モデルです。


私たちの原動力は、独自の補完モデルである Cursor Tab の開発経験に根差しています。多くの開発者は、対話的に使えてコーディングの流れを途切れさせない、より賢いモデルを求めていることが分かりました。開発の過程では、より高速なエージェントモデルの効果を把握するため、コードネーム Cheetah のプロトタイプエージェントモデルで実験しました。Composer はこのモデルをさらに高性能にしたもので、対話的な体験に十分な速度を備え、コーディングを快適に保ちます。
Composer は、長大なコンテキストの生成と理解に対応する mixture-of-experts(MoE)言語モデルです。多様な開発環境での強化学習(RL)を通じてソフトウェアエンジニアリングに特化しました。各学習反復で、モデルは問題の記述を与えられ、コードの編集、計画の立案、あるいは有益な解答など、最良の応答を出すよう指示されます。モデルは、ファイルの読み取りや編集といったシンプルなツールに加え、ターミナルコマンドやコードベース全体にわたるセマンティック検索といった、より強力なツールにもアクセスできます。
進捗を測るにあたり、私たちはソフトウェア開発者にとってモデルがどれほど有用かを可能な限り忠実に評価できる仕組みを構築しました。私たちのベンチマーク「Cursor Bench」は、Cursor のエンジニアや研究者が実際に行ったエージェントへのリクエストと、それらに対する手作業で精選した最適解から構成されます。これにより、評価はエージェントの正確性だけでなく、コードベースの既存の抽象化やソフトウェアエンジニアリングの慣行への適合度も測定します。


強化学習により、効果的なソフトウェアエンジニアリングに向けてモデルを能動的に特化させられます。対話的な開発では応答速度が重要なため、モデルにはツールの効率的な活用と、可能な限りの並列化を促す報酬設計を行っています。さらに、根拠のない主張や不要な応答を最小化することで、有用なアシスタントとして振る舞えるよう訓練しています。加えて、RLの過程で、モデルが自発的に複雑な検索、リンターエラーの修正、ユニットテストの作成と実行といった有用な振る舞いを身につけることも確認しています。


大規模な MoE モデルを効率的に学習させるには、インフラ整備とシステム研究への多大な投資が必要です。私たちは PyTorch と Ray を活用し、非同期強化学習を大規模に実行するためのカスタム学習基盤を構築しました。MXFP8 MoE カーネルとエキスパート並列、ハイブリッド分割によるデータ並列を組み合わせ、低精度でネイティブに学習することで、通信コストを最小限に抑えつつ数千枚規模の NVIDIA GPU へ学習をスケールさせています。さらに、MXFP8 で学習することで、学習後の量子化を行わずに高速な推論を提供できます。
RL の間、私たちはモデルが Cursor Agent のハーネス内にあるあらゆるツールを呼び出せるようにしたいと考えています。これらのツールにより、コード編集、セマンティック検索の利用、文字列の grep、ターミナルコマンドの実行が可能になります。私たちのスケールでは、モデルにこれらのツールを効果的に呼び出すことを学習させるには、クラウド上で数十万規模のサンドボックス化された同時稼働のコーディング環境を動かす必要があります。このワークロードを支えるため、Background Agents 向けに構築していた既存のインフラを拡張し、トレーニング実行のバースト的な特性とスケールに対応できるよう仮想マシンのスケジューラを書き換えました。これにより、RL 環境と本番環境をシームレスに統合できました。
Cursor はソフトウェアエンジニアリング向けのツールを開発しており、私たち自身もそれらを積極的に活用しています。Composer の開発動機のひとつは、私たちが日々の業務で真っ先に使いたくなるエージェントを作ることでした。直近では、多くの同僚が日常のソフトウェア開発に Composer を活用していることがわかりました。今回のリリースを通じて、皆さまにも価値あるツールだと感じていただければ幸いです。
—
¹ Cursor のツールハーネス内で実施した社内ベンチマークに基づく結果です。モデルはスコアに応じてクラス分けし、各クラスで最良のモデルを報告しています。「Fast Frontier」には Haiku 4.5 や Gemini Flash 2.5 など、高効率な推論向けに設計されたモデルが含まれます。「Best Open」には Qwen Coder や GLM 4.6 など、最近公開されたオープンウェイトモデルが含まれます。「Frontier 7/2025」は本年7月時点で利用可能な最良モデルを指します。「Best Frontier」には GPT-5 と Sonnet 4.5 が含まれ、いずれも Composer を上回ります。Tokens per Second の算出では、各モデルのトークンを最新の Anthropic トークナイザーに統一しています。