擴大長時間運行 Agent 的研究預覽

Cursor Team產品

Cursor 的長時間運行 Agent 研究預覽現在已在 cursor.com/agents 向所有 Ultra、Teams 和企業用戶開放。

長時間運行 Agent 是我們在「讓代理能夠自主處理更大型專案」這一研究工作的成果,其中包含我們上個月分享的實驗:Cursor 如何打造一個網頁瀏覽器。在那次實驗中,我們觀察到最先進的模型在長程任務上會以可預期的方式失敗。我們藉由建立一個自訂的控制框架(harness),讓代理能承接更困難的工作並一路執行到完成,來解決這些限制。

我們在上週發佈了這個控制框架的一個版本,作為研究預覽的一部分。結果顯示,長時間運行 Agent 產生的 PR(拉取請求)規模大幅提升,且其被合併的比例與其他代理相當。

長時間運行 Agent 產生的 PR(拉取請求)規模大幅提升,且其被合併的比例與其他代理相當長時間運行 Agent 產生的 PR(拉取請求)規模大幅提升,且其被合併的比例與其他代理相當

在與參與研究預覽的使用者交流時,我们聽到長時間運行 Agent 成功完成了許多先前對代理而言難以企及的任務。以下是研究預覽中的幾個實際執行範例:

  • 建置一個全新的聊天平台,並與現有的開源工具整合(執行時間:36 小時)
  • 依據現有的網頁應用程式實作一個行動裝置 App(執行時間:30 小時)
  • 重構一套驗證與 RBAC 系統(執行時間:25 小時)

讓模型更強大

成功完成困難任務,需要頂尖的智慧與合適的控制框架。透過與各種最先進模型合作,並為每一種模型打造專屬的控制框架,我們得以構建出能發揮不同模型長處的最佳「腳手架」。我們發現,有兩條通用原則能幫助我們取得更好的表現。

先規劃,再執行

在直接與模型反覆互動時,緊密的提示—回應迴圈能讓你持續監控代理,一旦偏離軌道就及時將其拉回。但當代理自主去處理一個較大的任務時,一開始些微的錯誤假設,到了最後可能演變成完全錯誤的解答。

在 Cursor 中長時間運作的代理,會先提出一個計畫並等待核准,而不是立刻進入執行階段,因為事前對齊可以降低後續來回溝通的需求。

把任務真正做完

最先進的模型可以寫出很優秀的程式碼,但常常會忘記任務的全貌、搞丟自己正在做什麼,或是在只完成一部分時就停下來。

長時間運作的代理會依據一份計畫,並讓多個不同代理互相檢查彼此的工作,以便把更大、更複雜的任務完整地執行到底。

目前研究發現

參與研究預覽的首批使用者運用 long-running agents(長時間執行的代理)來實作大型功能、重構複雜系統、修復棘手的錯誤、大幅優化效能,並建立高涵蓋率的測試。

我已經交付了兩次架構大規模重構。這對『我不確定這做不做得到,但我很好奇想看看』這類型的工作來說,是一個非常驚人的工具。我可以同時平行跑五個 Agent,從打造 Mac 視窗管理器到把 CEF 嵌入 Tauri,全部都可以。

Theo Browne
執行長, T3 Chat

Agents 通常會執行超過一天,產生的 PR(拉取請求)只需要做極少的後續處理就能合併。使用者可以暫時離開、專注在其他工作、闔上筆電,再回來時就看到可運作的解決方案。

我原本預期這個專案要花整整一個季度才能完成。用 Cursor 的 long-running agents 之後,時間壓縮到只需要幾天。而且我還能多做兩到三個額外專案。我可以啟動一個 52 小時的任務,完全不用盯著它,回來時就有一個包含 151k 行程式碼的大型 PR(拉取請求)。

Zack Jackson
基礎架構架構師, Rspack

與同步型代理相比,long-running agents 的處理方式更為全面,寫出的程式碼也更接近可直接上線使用的品質。

新的 harness 最神奇的地方在於,讓同一個模型也能產出接近 production-ready 的成果。我用同一個修復錯誤的提示語,在本機與 long-running agent 上都用 Codex 5.3 做測試。本機的代理修好得很快,但 long-running 的版本做得更深入,會找出邊界情況、修復類似問題,並建立高涵蓋率的測試。

Tejas Haveri
技術長, DevAccel-Labs

在 Cursor 中使用長時間執行的代理

過去一個月,我們在內部測試了長時間執行代理的極限。我們既用它們做實驗,看看可以把能力推到多遠,也在 Cursor 本身的正式環境工作中使用。以下是我們交給多個長時間執行代理的一些任務,而這些成果後來都已合併進專案。

影片渲染器最佳化

我們請一個代理最佳化一個因效能瓶頸而拖慢部署的影片渲染器。它完成了完整的 Rust 遷移,並實作了自訂核心模組,完全依照原始邏輯運作,重現了相同的視覺輸出。

針對沙盒程式碼的策略導向網路存取

我們需要以 JSON 為驅動的網路策略控制,以及一個用於沙盒處理程序的本機 HTTP 代理伺服器。這個代理必須在各種協定下都正確運作、一致地強制執行策略,並在失敗時安全地拒絕被封鎖的流量。這個長時間執行代理建立了一個約一萬行的 PR(拉取請求),在我們對其執行大型測試套件時,只出現極少問題。後續工作主要是我們在最初請求中沒有特別指定的變更。

Cursor CLI 的 sudo 支援

有些工作一碰到 sudo 就會讓 CLI 代理失效,尤其是與系統管理或 ops 相關的任務。我們請一個長時間執行代理實作安全的 sudo 密碼提示,這需要把多個子系統串接起來,並深入理解 Unix 認證流程。它產生了一個可用的實作,現在已由 Cursor CLI 採用。

邁向自動駕駛程式碼庫

Cursor 中的長時間運行代理是邁向自動駕駛程式碼庫道路上的早期里程碑,在這樣的程式碼庫中,代理可以在更少人工介入的情況下處理更多工作。現在,你可以把更大型的任務交給它們,數小時或數天後再回來,就能看到可用的解決方案。

我們正在致力於改進長時間運行代理之間的協作能力,讓它們可以將更大的專案拆解成並行的工作流程,並在更少人工介入下承擔更有野心的專案。

我們也正在開發新工具,以因應現在產生的大量程式碼。隨著程式碼生成成本持續下降,我們將需要全新的方法,來安全地將這些程式碼部署到正式環境中。

立刻前往 cursor.com/agents 體驗長時間運行代理。

歸檔於: 產品

作者: Cursor Team

擴大長時間運行 Agent 的研究預覽 · Cursor