Composer:以強化學習打造高速前沿模型
Composer 是我們全新的 Agent 模型,專為軟體工程智能與速度而設計。根據我們的基準測試,該模型在程式設計表現上達到頂尖水準,且生成速度比同類模型快四倍。
我們透過訓練模型在大型程式碼庫中處理真實世界的軟體工程難題來達成這些成效。訓練期間,Composer 可存取一組用於生產環境的搜尋與編輯工具,並被指派以高效率解決多樣且棘手的問題。最終成果是一個大規模模型,已最佳化為在 Cursor 中作為 Agent 進行高速運作。


我們的動機來自開發 Cursor 的 Tab(我們的自訂補全模型)的經驗。我們發現,開發者往往需要能支援互動使用、讓他們維持寫程式專注與流暢的最強模型。在研發過程中,我們嘗試了一個代號為 Cheetah 的原型 Agent 模型,以更深入了解更快的代理模型所帶來的影響。Composer 是該模型更聰明的版本,具備足夠的速度以支援互動體驗,讓寫程式依然順暢而愉悅。
Composer 是一種混合專家(MoE)語言模型,支援長脈絡的生成與理解。它透過在各式開發環境中進行強化學習(RL),專精於軟體工程。在每次訓練迭代中,模型會取得問題描述,並被指示產生最佳回應,無論是程式碼編輯、規劃方案,或具資訊含量的解答。模型可使用簡單的工具,例如讀取與編輯檔案,也能使用更強大的工具,如終端指令與針對整個程式碼庫的語意搜尋。
為了衡量進展,我們設計了一套評估,盡可能忠實反映模型對軟體開發者的實用價值。我們的基準測試 Cursor Bench,由 Cursor 的工程師與研究人員實際提出的 Agent 請求,以及經人工精選的最佳解法所組成。此評估不僅檢驗 Agent 的正確性,也衡量其對既有程式碼庫抽象與軟體工程實務的遵循程度。


強化學習使我們能主動將模型專門化,以更有效地支援軟體工程。由於回應速度是互動式開發的關鍵,我們鼓勵模型在工具使用上做出高效率的選擇,並在可行情況下盡可能提高平行化。此外,我們透過減少不必要的回覆與缺乏證據的主張,將模型訓練成更有幫助的助理。我們也發現,在 RL 過程中,模型會自行學會實用行為,例如進行複雜搜尋、修正 linter 錯誤,以及撰寫並執行單元測試。


高效訓練大型 MoE 模型,需在基礎設施與系統研究上投入大量資源。我們以 PyTorch 與 Ray 打造客製化訓練基礎設施,支援大規模非同步強化學習。我們將自家的MXFP8 MoE kernels與 expert parallelism 和混合分片式資料並行結合,原生以低精度訓練模型,使我們能以極低的通訊成本將訓練擴充至成千上萬個 NVIDIA GPU。此外,以 MXFP8 訓練可在無需訓練後量化的情況下,提供更快的推論速度。
在進行 RL 時,我們希望模型能夠呼叫 Cursor Agent 框架中的任何工具。這些工具可用於編輯程式碼、進行語意搜尋、grep 字串,以及執行終端機指令。在我們的規模下,要讓模型能有效呼叫這些工具,需要在雲端同時運行數十萬個受沙箱保護的程式碼環境。為了支援此一工作負載,我們調整了先前為 Background Agent 建置的基礎設施,重寫虛擬機排程器以因應訓練作業突發性的特質與規模。這讓我們能將 RL 環境與正式上線的生產環境無縫統一。
Cursor 為軟體工程打造工具,而我們也深度使用自研工具。推動 Composer 開發的一大動力,是打造一個我們在自身工作中也會優先採用的 Agent。近幾週,我們發現許多同事已在日常軟體開發中使用 Composer。隨著本次發佈,我們也希望你同樣覺得它是一款實用且有價值的工具。
—
¹ 以 Cursor 工具環境中的內部基準測試為依據。我們依分數將模型分級,並回報各級中表現最佳的模型。「Fast Frontier」包含為高效推論設計的模型,例如 Haiku 4.5 與 Gemini Flash 2.5。「Best Open」包含近期開放權重的模型發佈,例如 Qwen Coder 與 GLM 4.6。「Frontier 7/2025」指今年 7 月可用的最佳模型。「Best Frontier」包含 GPT-5 與 Sonnet 4.5,兩者皆優於 Composer。針對每秒權杖數(Tokens per Second, TPS)的計算,我們將各模型的權杖統一以最新的 Anthropic tokenizer 進行標準化。