長時間稼働エージェントのリサーチプレビューを拡大しました
Cursor の長時間稼働エージェントのリサーチプレビューが、すべての Ultra、Teams、企業プランのユーザー向けに cursor.com/agents で利用可能になりました。
長時間稼働エージェントは、先月共有した Cursor がどのようにウェブブラウザを構築したか にもつながる、より野心的なプロジェクトに自律的に取り組むエージェントに関するリサーチの成果です。
あの実験では、長期的なタスクにおいて最先端モデルが予測可能なパターンで失敗する様子を確認しました。
そこで、エージェントがより難しい作業を引き受け、完了までやり遂げられるようにするカスタムハーネスを作ることで、これらの制約に対処しました。
先週、このハーネスのバージョンを リサーチプレビュー の一部としてリリースしました。その結果、長時間稼働エージェントは、他のエージェントと同程度のマージ率を保ちながら、はるかに大きな PR を生成しました。


リサーチプレビューの参加者からお話を伺う中でも、長時間稼働エージェントが、これまでのエージェントでは手が届かなかったさまざまなタスクをうまく完了させていたことが分かりました。リサーチプレビューでの実行例としては、次のようなものがあります。
- 既存のオープンソースツールと統合された、新しいチャットプラットフォームを一から構築(実行時間: 36 時間)
- 既存のウェブアプリをもとにしたモバイルアプリを実装(実行時間: 30 時間)
- 認証および RBAC システムのリファクタリング(実行時間: 25 時間)
モデルをさらに高性能にする
難しいタスクをうまく完了させるには、最先端のインテリジェンスと、それを制御する適切なハーネスが必要です。あらゆる最先端モデルを扱い、それぞれに対してカスタムハーネスを構築してきたことで、異なるモデルの長所を最大限に活かすための最適な足場を構築できる、独自の立場にあります。その中で、パフォーマンス向上に役立つ 2 つの一般原則があることが分かりました。
実行前のプランニング
モデルと直接対話しながら反復する場合、短いプロンプト–レスポンスのループによって、エージェントを監視し、必要に応じて軌道修正できます。一方で、エージェントが大きなタスクに自律的に取り組む場合には、わずかな誤った前提が、最終的にまったく誤った解決策につながりかねません。
Cursor の長時間動作エージェントは、すぐに実行に飛びつくのではなく、まずプランを提示して承認を待つことで、事前のアラインメントによって後追いの修正が減るようになっています。
タスクを最後までやり切ること
最先端モデルは優れたコードを書けますが、自分のタスクの全体像を忘れたり、今何をしているか見失ったり、途中で止まってしまうことがよくあります。
長時間動作エージェントは、プランと、互いの作業を検証し合う複数の異なるエージェントを組み合わせることで、より大きく複雑なタスクでも最後までやり切れるように設計されています。
これまでの知見
リサーチプレビューの初期参加者は、長時間稼働する Agent を使って、大規模な機能の実装、複雑なシステムのリファクタリング、パフォーマンスの抜本的な改善、難易度の高いバグ修正、高カバレッジなテストの作成などを行いました。
「アーキテクチャの大規模なオーバーホールを 2 つリリースしました。『これが実現可能か分からないけれど、試してみたいタイプの仕事』に対して、信じられないほど強力なツールです。Mac のウィンドウマネージャの作成から、CEF を Tauri に組み込むところまで、あらゆる用途で 5 個を並列で走らせることができます。」
Agent は 1 日以上動き続けることも多く、最小限のフォローアップ作業でマージできる PR を生成しました。ユーザーは席を外して別の作業に集中したり、ラップトップを閉じていても、戻ってきたときにはすでに動作するソリューションを得ることができました。
「このプロジェクトには四半期まるごとかかると見込んでいました。しかし Cursor の長時間稼働 Agent を使うことで、そのスケジュールはわずか数日に圧縮されました。そして、さらに 2〜3 個のプロジェクトにも取り組めました。付きっきりで見ている必要のない 52 時間のタスクを走らせておき、戻ってきたら 151k 行のコードを含む大きな PR ができあがっている、ということができます。」
同期型の Agent と比べて、長時間稼働する Agent はアプローチがより綿密で、より本番投入を前提としたコードを生成しました。
「新しいハーネスの“魔法”は、同じモデルに本番投入可能なものを作らせられる点です。同じバグ修正用プロンプトを、ローカルと長時間稼働 Agent の両方で(どちらも Codex 5.3 で)試しました。ローカルの Agent もかなり早くバグを修正しましたが、長時間稼働のほうはさらに踏み込んでエッジケースを見つけ、類似箇所を修正し、高カバレッジなテストを作成しました。」
Cursor で長時間稼働する Agent を使う
ここ 1 か月ほどの間、社内で長時間稼働する Agent の限界をテストしてきました。どこまで性能を引き出せるかを試す実験だけでなく、Cursor 自体の本番の開発作業にも活用しています。ここでは、長時間稼働する Agent に任せ、すでにマージ済みのタスクの一部を紹介します。
Video renderer の最適化
デプロイのボトルネックになっていた Video renderer のパフォーマンスを最適化するよう Agent に依頼しました。Agent は Rust への完全な移行とカスタムカーネルの実装を行い、元のロジックだけを手掛かりに、同一のビジュアル出力を再現しました。
サンドボックス化されたコード向けのポリシーベースのネットワークアクセス
サンドボックス化されたプロセスのために、JSON 駆動のネットワークポリシー制御とローカル HTTP プロキシが必要でした。このプロキシは、複数プロトコルで正しく動作し、一貫したポリシー適用を行い、ブロック対象のトラフィックを決して通さない形で安全にフェイルする必要があります。長時間稼働する Agent は、これらの要件を満たす 1 万行規模の PR を作成し、大規模なテストスイートを実行しても問題はほとんど発生しませんでした。フォローアップ作業の多くは、最初の依頼では明示していなかった変更に関するものでした。
Cursor CLI の sudo サポート
一部のタスクは、特にシステム管理や運用に関するタスクで、sudo に突き当たった瞬間に CLI Agent が破綻してしまうことがあります。そこで長時間稼働する Agent に、安全な sudo パスワードプロンプトを実装するよう依頼しました。これは複数のサブシステムをつなぎ合わせ、Unix の認証フローについて推論する必要がある作業でした。Agent は動作する実装を完成させ、現在 Cursor CLI はそれを利用しています。
自律型コードベースへ向けて
Cursor の長時間稼働するエージェントは、自律型コードベースへの道のりにおける初期のマイルストーンです。エージェントがより少ない人間の介入で、より多くの作業をこなせるようになります。これにより、これまでより大きなタスクを委任し、数時間から数日後に、すでに動くソリューションとして受け取ることが可能になりました。
私たちは現在、長時間稼働するエージェント同士の協調をさらに高めることに取り組んでいます。これにより、より大規模なプロジェクトを並列的なワークストリームに分割し、より少ない人間の介入で、さらに野心的なプロジェクトにも取り組めるようにしていきます。
また、今後ますます増えていく膨大な生成コードを扱うための新しいツールの開発にも取り組んでいます。コード生成のコストが下がり続ける中、そのコードを安全に本番環境へデプロイするためには、新しいアプローチが必要になります。
cursor.com/agents で、長時間稼働するエージェントをぜひ今日からお試しください。