介紹 Composer 1.5

幾個月前，我們推出了第一個具代理能力的程式碼模型 Composer 1。自那之後，我們大幅提升了該模型的編碼能力。

我們的新版本 Composer 1.5，在日常使用情境中在速度與智能之間取得了絕佳平衡。Composer 1.5 是在相同的預訓練模型上，將強化學習（RL）的規模進一步放大 20 倍所打造而成。我們在 Composer 1.5 後訓練階段使用的運算量，甚至超過用於預訓練基礎模型時所使用的運算量。

隨著規模擴大，我們持續看到編碼能力的進步。依據我們以真實世界程式問題建立的內部基準測試，我們發現模型很快就超越 Composer 1，且效能持續攀升。這些改進在較具挑戰性的任務上尤為明顯。

Composer 1.5 是一個擅長思考的模型。在回應查詢的過程中，模型會產生 thinking token，來針對使用者的程式碼庫進行推理並規劃下一步。我們發現這些思考階段對模型的智能表現至關重要。同時，我們也希望在日常使用中，Composer 1.5 能維持快速且具互動性。為了達到平衡，模型被訓練成在簡單問題上只進行最少的思考、快速回應；而在困難問題上，則會持續思考直到找到令人滿意的答案。¹

Composer 1.5 在 Terminal-Bench 2.0 上的基準測試結果

為了處理執行時間較長的任務，Composer 1.5 具備自我摘要的能力。即便在可用脈絡（context）耗盡時，這也能讓模型持續探索解決方案。我們在以 RL 訓練 Composer 1.5 的過程中，要求模型在訓練時脈絡用盡時產生有用的摘要，藉此將自我摘要能力融入其中。在困難的範例上，這個機制可能會遞迴觸發數次。我們發現，自我摘要能力能讓模型在脈絡長度變化時，依然維持原有的準確度。

Composer 1.5 相較於 Composer 1 是一個顯著更強的模型，我們建議在互動式使用情境中優先採用它。其訓練結果證明，用於編碼的 RL 可以持續擴大規模，帶來可預期的智能提升。

在這裡深入了解 Composer 1.5 的價格。

Terminal-Bench 2.0 是由 Laude Institute 維護、用於終端機使用情境的代理評估基準測試。Anthropic 模型的分數是使用 Claude Code 測試套件計算，而 OpenAI 模型的分數則是使用 Simple Codex 測試套件計算。我們的 Cursor 分數是使用官方的 Harbor 評估框架（Terminal-Bench 2.0 指定的測試套件），並採用預設基準設定所計算而得。我們對每一個模型與代理配對執行 2 次測試，並回報其平均值。關於此基準測試的更多細節，可參考官方的 Terminal Bench 網站。至於 Composer 1.5 以外的其他模型，我們取官方排行榜分數與在我們基礎設施中執行時所記錄分數兩者之間的最高分。↩

幾個月前，我們推出了第一個具代理能力的程式碼模型 Composer 1。自那之後，我們大幅提升了該模型的編碼能力。

在這裡深入了解 Composer 1.5 的價格。

Terminal-Bench 2.0 是由 Laude Institute 維護、用於終端機使用情境的代理評估基準測試。Anthropic 模型的分數是使用 Claude Code 測試套件計算，而 OpenAI 模型的分數則是使用 Simple Codex 測試套件計算。我們的 Cursor 分數是使用官方的 Harbor 評估框架（Terminal-Bench 2.0 指定的測試套件），並採用預設基準設定所計算而得。我們對每一個模型與代理配對執行 2 次測試，並回報其平均值。關於此基準測試的更多細節，可參考官方的 Terminal Bench 網站。至於 Composer 1.5 以外的其他模型，我們取官方排行榜分數與在我們基礎設施中執行時所記錄分數兩者之間的最高分。↩

幾個月前，我們推出了第一個具代理能力的程式碼模型 Composer 1。自那之後，我們大幅提升了該模型的編碼能力。

在這裡深入了解 Composer 1.5 的價格。

Terminal-Bench 2.0 是由 Laude Institute 維護、用於終端機使用情境的代理評估基準測試。Anthropic 模型的分數是使用 Claude Code 測試套件計算，而 OpenAI 模型的分數則是使用 Simple Codex 測試套件計算。我們的 Cursor 分數是使用官方的 Harbor 評估框架（Terminal-Bench 2.0 指定的測試套件），並採用預設基準設定所計算而得。我們對每一個模型與代理配對執行 2 次測試，並回報其平均值。關於此基準測試的更多細節，可參考官方的 Terminal Bench 網站。至於 Composer 1.5 以外的其他模型，我們取官方排行榜分數與在我們基礎設施中執行時所記錄分數兩者之間的最高分。↩