介紹 Composer 1.5

Cursor Team研究

幾個月前,我們推出了第一個具代理能力的程式碼模型 Composer 1。自那之後,我們大幅提升了該模型的編碼能力。我們的新版本 Composer 1.5,在日常使用情境中在速度與智能之間取得了絕佳平衡。

Composer 1.5 是在相同的預訓練模型上,將強化學習(RL)的規模進一步放大 20 倍所打造而成。我們在 Composer 1.5 後訓練階段使用的運算量,甚至超過用於預訓練基礎模型時所使用的運算量。

隨著規模擴大,我們持續看到編碼能力的進步。依據我們以真實世界程式問題建立的內部基準測試,我們發現模型很快就超越 Composer 1,且效能持續攀升。這些改進在較具挑戰性的任務上尤為明顯。

Composer 1.5 是一個擅長思考的模型。在回應查詢的過程中,模型會產生 thinking token,來針對使用者的程式碼庫進行推理並規劃下一步。我們發現這些思考階段對模型的智能表現至關重要。同時,我們也希望在日常使用中,Composer 1.5 能維持快速且具互動性。為了達到平衡,模型被訓練成在簡單問題上只進行最少的思考、快速回應;而在困難問題上,則會持續思考直到找到令人滿意的答案。

為了處理執行時間較長的任務,Composer 1.5 具備自我摘要的能力。即便在可用脈絡(context)耗盡時,這也能讓模型持續探索解決方案。我們在以 RL 訓練 Composer 1.5 的過程中,要求模型在訓練時脈絡用盡時產生有用的摘要,藉此將自我摘要能力融入其中。在困難的範例上,這個機制可能會遞迴觸發數次。我們發現,自我摘要能力能讓模型在脈絡長度變化時,依然維持原有的準確度。

Composer 1.5 相較於 Composer 1 是一個顯著更強的模型,我們建議在互動式使用情境中優先採用它。其訓練結果證明,用於編碼的 RL 可以持續擴大規模,帶來可預期的智能提升。

這裡 深入了解 Composer 1.5 的價格。

歸檔於: 研究

作者: Cursor Team

介紹 Composer 1.5 · Cursor