擴大長時間運行 Agent 的研究預覽

Cursor 的長時間運行 Agent 研究預覽現在已在 cursor.com/agents 向所有 Ultra、Teams 和企業用戶開放。

長時間運行 Agent 是我們在「讓代理能夠自主處理更大型專案」這一研究工作的成果，其中包含我們上個月分享的實驗：Cursor 如何打造一個網頁瀏覽器。在那次實驗中，我們觀察到最先進的模型在長程任務上會以可預期的方式失敗。我們藉由建立一個自訂的控制框架（harness），讓代理能承接更困難的工作並一路執行到完成，來解決這些限制。

我們在上週發佈了這個控制框架的一個版本，作為研究預覽的一部分。結果顯示，長時間運行 Agent 產生的 PR（拉取請求）規模大幅提升，且其被合併的比例與其他代理相當。

在與參與研究預覽的使用者交流時，我们聽到長時間運行 Agent 成功完成了許多先前對代理而言難以企及的任務。以下是研究預覽中的幾個實際執行範例：

建置一個全新的聊天平台，並與現有的開源工具整合（執行時間：36 小時）
依據現有的網頁應用程式實作一個行動裝置 App（執行時間：30 小時）
重構一套驗證與 RBAC 系統（執行時間：25 小時）

讓模型更強大

成功完成困難任務，需要頂尖的智慧與合適的控制框架。透過與各種最先進模型合作，並為每一種模型打造專屬的控制框架，我們得以構建出能發揮不同模型長處的最佳「腳手架」。我們發現，有兩條通用原則能幫助我們取得更好的表現。

先規劃，再執行

在直接與模型反覆互動時，緊密的提示—回應迴圈能讓你持續監控代理，一旦偏離軌道就及時將其拉回。但當代理自主去處理一個較大的任務時，一開始些微的錯誤假設，到了最後可能演變成完全錯誤的解答。

在 Cursor 中長時間運作的代理，會先提出一個計畫並等待核准，而不是立刻進入執行階段，因為事前對齊可以降低後續來回溝通的需求。

把任務真正做完

最先進的模型可以寫出很優秀的程式碼，但常常會忘記任務的全貌、搞丟自己正在做什麼，或是在只完成一部分時就停下來。

長時間運作的代理會依據一份計畫，並讓多個不同代理互相檢查彼此的工作，以便把更大、更複雜的任務完整地執行到底。

目前研究發現

參與研究預覽的首批使用者運用 long-running agents（長時間執行的代理）來實作大型功能、重構複雜系統、修復棘手的錯誤、大幅優化效能，並建立高涵蓋率的測試。

我已經交付了兩次架構大規模重構。這對『我不確定這做不做得到，但我很好奇想看看』這類型的工作來說，是一個非常驚人的工具。我可以同時平行跑五個 Agent，從打造 Mac 視窗管理器到把 CEF 嵌入 Tauri，全部都可以。

Theo Browne

執行長, T3 Chat

Agents 通常會執行超過一天，產生的 PR（拉取請求）只需要做極少的後續處理就能合併。使用者可以暫時離開、專注在其他工作、闔上筆電，再回來時就看到可運作的解決方案。

我原本預期這個專案要花整整一個季度才能完成。用 Cursor 的 long-running agents 之後，時間壓縮到只需要幾天。而且我還能多做兩到三個額外專案。我可以啟動一個 52 小時的任務，完全不用盯著它，回來時就有一個包含 151k 行程式碼的大型 PR（拉取請求）。

Zack Jackson

基礎架構架構師, Rspack

與同步型代理相比，long-running agents 的處理方式更為全面，寫出的程式碼也更接近可直接上線使用的品質。

新的 harness 最神奇的地方在於，讓同一個模型也能產出接近 production-ready 的成果。我用同一個修復錯誤的提示語，在本機與 long-running agent 上都用 Codex 5.3 做測試。本機的代理修好得很快，但 long-running 的版本做得更深入，會找出邊界情況、修復類似問題，並建立高涵蓋率的測試。

Tejas Haveri

技術長, DevAccel-Labs

在 Cursor 中使用長時間執行的代理

過去一個月，我們在內部測試了長時間執行代理的極限。我們既用它們做實驗，看看可以把能力推到多遠，也在 Cursor 本身的正式環境工作中使用。以下是我們交給多個長時間執行代理的一些任務，而這些成果後來都已合併進專案。

影片渲染器最佳化

我們請一個代理最佳化一個因效能瓶頸而拖慢部署的影片渲染器。它完成了完整的 Rust 遷移，並實作了自訂核心模組，完全依照原始邏輯運作，重現了相同的視覺輸出。

針對沙盒程式碼的策略導向網路存取

我們需要以 JSON 為驅動的網路策略控制，以及一個用於沙盒處理程序的本機 HTTP 代理伺服器。這個代理必須在各種協定下都正確運作、一致地強制執行策略，並在失敗時安全地拒絕被封鎖的流量。這個長時間執行代理建立了一個約一萬行的 PR（拉取請求），在我們對其執行大型測試套件時，只出現極少問題。後續工作主要是我們在最初請求中沒有特別指定的變更。

Cursor CLI 的 sudo 支援

有些工作一碰到 sudo 就會讓 CLI 代理失效，尤其是與系統管理或 ops 相關的任務。我們請一個長時間執行代理實作安全的 sudo 密碼提示，這需要把多個子系統串接起來，並深入理解 Unix 認證流程。它產生了一個可用的實作，現在已由 Cursor CLI 採用。

邁向自動駕駛程式碼庫

Cursor 中的長時間運行代理是邁向自動駕駛程式碼庫道路上的早期里程碑，在這樣的程式碼庫中，代理可以在更少人工介入的情況下處理更多工作。現在，你可以把更大型的任務交給它們，數小時或數天後再回來，就能看到可用的解決方案。

我們正在致力於改進長時間運行代理之間的協作能力，讓它們可以將更大的專案拆解成並行的工作流程，並在更少人工介入下承擔更有野心的專案。

我們也正在開發新工具，以因應現在產生的大量程式碼。隨著程式碼生成成本持續下降，我們將需要全新的方法，來安全地將這些程式碼部署到正式環境中。

立刻前往 cursor.com/agents 體驗長時間運行代理。

Cursor 的長時間運行 Agent 研究預覽現在已在 cursor.com/agents 向所有 Ultra、Teams 和企業用戶開放。

建置一個全新的聊天平台，並與現有的開源工具整合（執行時間：36 小時）
依據現有的網頁應用程式實作一個行動裝置 App（執行時間：30 小時）
重構一套驗證與 RBAC 系統（執行時間：25 小時）

讓模型更強大

先規劃，再執行

在 Cursor 中長時間運作的代理，會先提出一個計畫並等待核准，而不是立刻進入執行階段，因為事前對齊可以降低後續來回溝通的需求。

把任務真正做完

最先進的模型可以寫出很優秀的程式碼，但常常會忘記任務的全貌、搞丟自己正在做什麼，或是在只完成一部分時就停下來。

長時間運作的代理會依據一份計畫，並讓多個不同代理互相檢查彼此的工作，以便把更大、更複雜的任務完整地執行到底。

目前研究發現

我已經交付了兩次架構大規模重構。這對『我不確定這做不做得到，但我很好奇想看看』這類型的工作來說，是一個非常驚人的工具。我可以同時平行跑五個 Agent，從打造 Mac 視窗管理器到把 CEF 嵌入 Tauri，全部都可以。

Theo Browne

執行長, T3 Chat

我原本預期這個專案要花整整一個季度才能完成。用 Cursor 的 long-running agents 之後，時間壓縮到只需要幾天。而且我還能多做兩到三個額外專案。我可以啟動一個 52 小時的任務，完全不用盯著它，回來時就有一個包含 151k 行程式碼的大型 PR（拉取請求）。

Zack Jackson

基礎架構架構師, Rspack

與同步型代理相比，long-running agents 的處理方式更為全面，寫出的程式碼也更接近可直接上線使用的品質。

新的 harness 最神奇的地方在於，讓同一個模型也能產出接近 production-ready 的成果。我用同一個修復錯誤的提示語，在本機與 long-running agent 上都用 Codex 5.3 做測試。本機的代理修好得很快，但 long-running 的版本做得更深入，會找出邊界情況、修復類似問題，並建立高涵蓋率的測試。

Tejas Haveri

技術長, DevAccel-Labs

在 Cursor 中使用長時間執行的代理

影片渲染器最佳化

針對沙盒程式碼的策略導向網路存取

Cursor CLI 的 sudo 支援

邁向自動駕駛程式碼庫

我們正在致力於改進長時間運行代理之間的協作能力，讓它們可以將更大的專案拆解成並行的工作流程，並在更少人工介入下承擔更有野心的專案。

立刻前往 cursor.com/agents 體驗長時間運行代理。

Cursor 的長時間運行 Agent 研究預覽現在已在 cursor.com/agents 向所有 Ultra、Teams 和企業用戶開放。

建置一個全新的聊天平台，並與現有的開源工具整合（執行時間：36 小時）
依據現有的網頁應用程式實作一個行動裝置 App（執行時間：30 小時）
重構一套驗證與 RBAC 系統（執行時間：25 小時）

讓模型更強大

先規劃，再執行

在 Cursor 中長時間運作的代理，會先提出一個計畫並等待核准，而不是立刻進入執行階段，因為事前對齊可以降低後續來回溝通的需求。

把任務真正做完

最先進的模型可以寫出很優秀的程式碼，但常常會忘記任務的全貌、搞丟自己正在做什麼，或是在只完成一部分時就停下來。

長時間運作的代理會依據一份計畫，並讓多個不同代理互相檢查彼此的工作，以便把更大、更複雜的任務完整地執行到底。

目前研究發現

我已經交付了兩次架構大規模重構。這對『我不確定這做不做得到，但我很好奇想看看』這類型的工作來說，是一個非常驚人的工具。我可以同時平行跑五個 Agent，從打造 Mac 視窗管理器到把 CEF 嵌入 Tauri，全部都可以。

Theo Browne

執行長, T3 Chat

我原本預期這個專案要花整整一個季度才能完成。用 Cursor 的 long-running agents 之後，時間壓縮到只需要幾天。而且我還能多做兩到三個額外專案。我可以啟動一個 52 小時的任務，完全不用盯著它，回來時就有一個包含 151k 行程式碼的大型 PR（拉取請求）。

Zack Jackson

基礎架構架構師, Rspack

與同步型代理相比，long-running agents 的處理方式更為全面，寫出的程式碼也更接近可直接上線使用的品質。

新的 harness 最神奇的地方在於，讓同一個模型也能產出接近 production-ready 的成果。我用同一個修復錯誤的提示語，在本機與 long-running agent 上都用 Codex 5.3 做測試。本機的代理修好得很快，但 long-running 的版本做得更深入，會找出邊界情況、修復類似問題，並建立高涵蓋率的測試。

Tejas Haveri

技術長, DevAccel-Labs

在 Cursor 中使用長時間執行的代理

影片渲染器最佳化

針對沙盒程式碼的策略導向網路存取

Cursor CLI 的 sudo 支援

邁向自動駕駛程式碼庫

我們正在致力於改進長時間運行代理之間的協作能力，讓它們可以將更大的專案拆解成並行的工作流程，並在更少人工介入下承擔更有野心的專案。

立刻前往 cursor.com/agents 體驗長時間運行代理。

#讓模型更強大

#目前研究發現

#在 Cursor 中使用長時間執行的代理

#邁向自動駕駛程式碼庫

#讓模型更強大

#目前研究發現

#在 Cursor 中使用長時間執行的代理

#邁向自動駕駛程式碼庫

#讓模型更強大

#目前研究發現

#在 Cursor 中使用長時間執行的代理

#邁向自動駕駛程式碼庫

讓模型更強大

目前研究發現

在 Cursor 中使用長時間執行的代理

邁向自動駕駛程式碼庫

讓模型更強大

目前研究發現

在 Cursor 中使用長時間執行的代理

邁向自動駕駛程式碼庫

讓模型更強大

目前研究發現

在 Cursor 中使用長時間執行的代理

邁向自動駕駛程式碼庫