Composer:以 RL 打造高速尖端模型
Composer 是我們專為軟體工程智慧與速度設計的新代理模型。在我們的基準測試中,該模型達到尖端等級的程式碼撰寫表現,生成速度則比類似模型快上四倍。
我們透過讓模型在大型程式碼庫中完成真實世界的軟體工程挑戰來達成這些成果。在訓練過程中,Composer 可以使用一組生產環境中的搜尋與編輯工具,被要求高效率地解決各式各樣棘手的問題。最終結果是一個大規模模型,被最佳化為在 Cursor 中作為高速代理來使用。


我們打造自訂補全模型 Cursor Tab 的經驗,是這項工作的起點。我們發現,開發者往往希望使用足夠聰明、又能支援互動使用的模型,好讓他們保持在寫程式的心流之中。在開發過程中,我們嘗試了一個代號為 Cheetah 的原型代理模型,以更深入了解更快速的代理模型會帶來什麼影響。Composer 則是這個模型更聰明的版本,藉由足夠快速以支援互動體驗,讓寫程式維持愉悅順暢。
Composer 是一個 mixture-of-experts(MoE)語言模型,支援長內容脈絡的生成與理解。它透過在各種多元開發環境中的增強式學習(RL),針對軟體工程進行專精化。在每一次訓練迭代中,模型會被給定問題描述,並被指示產生最佳回應,無論是程式碼編輯、規劃,或是具資訊性的答案。模型可以使用簡單的工具,例如讀取與編輯檔案,也能使用更強大的工具,例如終端機指令與跨整個程式碼庫的語意搜尋。
為了衡量進展,我們建構了一套評估方法,盡可能忠實地衡量模型對軟體開發者的實用性。我們的基準測試 Cursor Bench,由 Cursor 的工程師與研究人員實際發出的代理請求,以及人工精選的最佳解答所組成。這項評估不僅衡量代理的正確性,也衡量它對程式碼庫既有抽象層次與軟體工程實務的遵循程度。


增強式學習讓我們可以主動將模型專精化,用於高效的軟體工程。由於回應速度是互動式開發的關鍵要素,我們鼓勵模型在使用工具時做出高效率的選擇,並在可能時最大化平行化程度。此外,我們也訓練模型成為有幫助的助理,盡量減少不必要的回應,以及缺乏證據支撐的主張。我們也發現,在 RL 過程中,模型會自行學會實用行為,例如執行複雜搜尋、修復 linter 錯誤,以及撰寫與執行單元測試。


要有效率地訓練大型 MoE 模型,需要在基礎建設與系統研究上投入大量資源。我們打造了自訂訓練基礎建設,結合 PyTorch 與 Ray,以在大規模環境中支援非同步增強式學習。我們原生以低精度訓練模型,將我們的 MXFP8 MoE kernels 與 expert parallelism 以及混合分片式資料平行化結合,使我們能以極低通訊成本,將訓練擴展到數千個 NVIDIA GPU。此外,使用 MXFP8 進行訓練,讓我們在不需訓練後量化的情況下,就能提供更快的推論速度。
在進行 RL 強化學習時,我們希望模型能夠呼叫 Cursor Agent 框架中的任意工具。這些工具可以用來編輯程式碼、使用語意搜尋、以 grep 搜尋字串,以及執行終端機指令。在我們這樣的規模下,要教會模型有效呼叫這些工具,需要在雲端同時執行數十萬個具備沙盒機制的程式開發環境。為了支援這樣的工作負載,我們調整了先前為 Background Agents 所建置的既有基礎架構,重寫虛擬機排程器,以支援訓練任務高突發性且大規模的特性。這讓 RL 環境與正式上線(production)環境得以無縫統一。
Cursor 為軟體工程打造工具,而我們也大量使用自己開發的工具。推動 Composer 開發的一項動機,就是打造一個我們在日常工作中也會主動使用的代理。在過去幾週,我們發現許多同事已經將 Composer 用於日常的軟體開發。藉由這次發佈,我們也希望你會覺得這是一個有價值的工具。
—
¹ 以 Cursor 工具框架中的內部基準測試進行測試。我們依照分數將模型分成多個類別,並回報每個類別中表現最佳的模型。"Fast Frontier" 包含為高效率推論設計的模型,例如 Haiku 4.5 和 Gemini Flash 2.5。"Best Open" 包含近期開放權重的模型發佈,例如 Qwen Coder 和 GLM 4.6。"Frontier 7/2025" 是今年 7 月可用的最佳模型。"Best Frontier" 包含 GPT-5 和 Sonnet 4.5,這兩者的表現都優於 Composer。對於每秒 token 數(Tokens per Second)的計算,所有模型的 token 都統一以最新的 Anthropic tokenizer 標準化處理。