介紹 Composer 1.5
幾個月前,我們推出了第一個具代理能力的程式碼模型 Composer 1。自那之後,我們大幅提升了該模型的編碼能力。
我們的新版本 Composer 1.5,在日常使用情境中在速度與智能之間取得了絕佳平衡。Composer 1.5 是在相同的預訓練模型上,將強化學習(RL)的規模進一步放大 20 倍所打造而成。我們在 Composer 1.5 後訓練階段使用的運算量,甚至超過用於預訓練基礎模型時所使用的運算量。
隨著規模擴大,我們持續看到編碼能力的進步。依據我們以真實世界程式問題建立的內部基準測試,我們發現模型很快就超越 Composer 1,且效能持續攀升。這些改進在較具挑戰性的任務上尤為明顯。


Composer 1.5 是一個擅長思考的模型。在回應查詢的過程中,模型會產生 thinking token,來針對使用者的程式碼庫進行推理並規劃下一步。我們發現這些思考階段對模型的智能表現至關重要。同時,我們也希望在日常使用中,Composer 1.5 能維持快速且具互動性。為了達到平衡,模型被訓練成在簡單問題上只進行最少的思考、快速回應;而在困難問題上,則會持續思考直到找到令人滿意的答案。1


為了處理執行時間較長的任務,Composer 1.5 具備自我摘要的能力。即便在可用脈絡(context)耗盡時,這也能讓模型持續探索解決方案。我們在以 RL 訓練 Composer 1.5 的過程中,要求模型在訓練時脈絡用盡時產生有用的摘要,藉此將自我摘要能力融入其中。在困難的範例上,這個機制可能會遞迴觸發數次。我們發現,自我摘要能力能讓模型在脈絡長度變化時,依然維持原有的準確度。
Composer 1.5 相較於 Composer 1 是一個顯著更強的模型,我們建議在互動式使用情境中優先採用它。其訓練結果證明,用於編碼的 RL 可以持續擴大規模,帶來可預期的智能提升。
在 這裡 深入了解 Composer 1.5 的價格。
- Terminal-Bench 2.0 是由 Laude Institute 維護、用於終端機使用情境的代理評估基準測試。Anthropic 模型的分數是使用 Claude Code 測試套件計算,而 OpenAI 模型的分數則是使用 Simple Codex 測試套件計算。我們的 Cursor 分數是使用官方的 Harbor 評估框架(Terminal-Bench 2.0 指定的測試套件),並採用預設基準設定所計算而得。我們對每一個模型與代理配對執行 2 次測試,並回報其平均值。關於此基準測試的更多細節,可參考官方的 Terminal Bench 網站。至於 Composer 1.5 以外的其他模型,我們取 官方排行榜 分數與在我們基礎設施中執行時所記錄分數兩者之間的最高分。↩