장기 실행 에이전트 연구 프리뷰 확대

작성자 Cursor Team제품

Cursor의 장기 실행 에이전트 연구 프리뷰가 이제 모든 Ultra, Teams, Enterprise 사용자를 위해 cursor.com/agents에서 제공됩니다.

장기 실행 에이전트는 더 야심 찬 프로젝트에서 자율적으로 작업하는 에이전트에 대한 연구의 결과물로, 지난달에 공유했던 Cursor가 웹 브라우저를 어떻게 구축했는지에 관한 작업도 포함합니다.

그 실험에서 우리는 최첨단 모델들이 장기 과제에서 예측 가능한 방식으로 실패하는 것을 확인했습니다. 우리는 에이전트가 더 어려운 작업을 맡아 끝까지 완수할 수 있도록 하는 맞춤형 하네스(harness)를 만들어 이러한 한계를 해결했습니다.

우리는 지난주 이 하네스의 한 버전을 연구 프리뷰의 일부로 공개했습니다. 그 결과, 장기 실행 에이전트가 다른 에이전트와 비슷한 머지율을 유지하면서 훨씬 더 큰 PR을 생성했다는 것이 드러났습니다.

장기 실행 에이전트는 더 큰 PR을 생성하면서도 비슷한 머지율을 유지했습니다장기 실행 에이전트는 더 큰 PR을 생성하면서도 비슷한 머지율을 유지했습니다

연구 프리뷰 참가자들과 이야기를 나누면서, 장기 실행 에이전트가 이전에는 에이전트로는 달성하기 어려웠던 다양한 작업을 성공적으로 완료했다는 피드백을 들었습니다. 연구 프리뷰에서 나온 몇 가지 실행 예시는 다음과 같습니다:

  • 기존 오픈 소스 도구와 통합된 완전히 새로운 채팅 플랫폼 구축 (실행 시간: 36시간)
  • 기존 웹 앱을 기반으로 한 모바일 앱 구현 (실행 시간: 30시간)
  • 인증 및 RBAC 시스템 리팩터링 (실행 시간: 25시간)

모델의 역량을 끌어올리기

어려운 작업을 성공적으로 완료하려면 최첨단 AI 능력과 그에 맞는 올바른 하니스(harness)가 필요합니다. 우리는 모든 프론티어 모델을 다루고 각 모델마다 커스텀 하니스를 구축해 왔기 때문에, 서로 다른 모델의 강점을 최대한 활용할 수 있는 최적의 스캐폴딩(scaffolding)을 설계할 수 있는 독특한 위치에 있습니다. 이 과정에서 더 나은 성능을 내는 데 도움이 되는 몇 가지 일반적인 원칙을 발견했습니다.

실행 전에 계획 수립하기

모델과 직접 상호작용하며 여러 번 반복할 때는, 촘촘한 프롬프트–응답 루프를 통해 에이전트를 모니터링하고 필요할 때마다 다시 올바른 방향으로 유도할 수 있습니다. 반면, 에이전트가 더 큰 작업을 자율적으로 수행하게 두면, 약간의 잘못된 가정이 마지막에는 완전히 틀린 해결책으로 이어질 수 있습니다.

Cursor의 장시간 실행 에이전트는 곧바로 실행에 뛰어들지 않고, 먼저 계획을 제안한 뒤 승인을 기다립니다. 처음부터 방향을 잘 맞춰 두면 이후에 다시 손볼 필요가 줄어든다고 보기 때문입니다.

작업을 끝까지 수행하기

프론티어 모델은 훌륭한 코드를 작성할 수 있지만, 종종 자신이 맡은 작업의 큰 그림을 잊거나, 지금 무엇을 하고 있는지 맥락을 놓치거나, 일부만 완료한 상태에서 멈추기도 합니다.

장시간 실행 에이전트는 하나의 계획을 바탕으로 여러 다른 에이전트가 서로의 작업을 검토하는 방식을 사용하여, 더 크고 복잡한 작업도 끝까지 완결할 수 있도록 합니다.

현재까지의 결과

리서치 프리뷰의 초기 참가자들은 장기 실행 에이전트를 사용해 대형 기능을 구현하고, 복잡한 시스템을 리팩터링하고, 까다로운 버그를 수정하고, 성능을 전면 개선하며, 높은 커버리지의 테스트를 생성했습니다.

아키텍처 전면 개편을 두 번이나 배포했습니다. "이게 가능한지는 모르겠지만 한번 지켜보고 싶다" 유형의 작업에 정말 놀라운 도구예요. Mac용 윈도 매니저를 만드는 것부터 CEF를 Tauri에 통합하는 것까지, 다섯 개를 병렬로 돌릴 수 있습니다.

Theo Browne
CEO, T3 Chat

에이전트는 보통 하루가 넘게 실행되며, 후속 작업이 거의 필요 없는 PR을 만들어 냈습니다. 사용자는 자리를 비우고 다른 업무에 집중하거나 노트북을 덮어도, 돌아왔을 때 이미 동작하는 해결책을 확인할 수 있었습니다.

이 프로젝트는 한 분기 전체를 써야 끝낼 수 있을 거라고 예상했습니다. Cursor 장기 실행 에이전트를 사용하니 일정이 며칠로 압축되었고, 그 사이에 두세 개의 추가 프로젝트까지 진행할 수 있었습니다. 제가 일일이 지켜볼 필요 없이 52시간짜리 작업을 시작해 두고, 돌아와서는 15만 1천 줄의 코드가 담긴 큰 PR을 받아볼 수 있었어요.

Zack Jackson
인프라 아키텍트, Rspack

동기식 에이전트와 비교했을 때, 장기 실행 에이전트는 접근 방식이 더 철저했고, 실제 프로덕션에 바로 투입할 수 있는 수준의 코드를 작성했습니다.

새 하네스의 마법 같은 점은 같은 모델로 프로덕션 레디한 결과물을 만들 수 있게 해준다는 겁니다. 동일한 버그 수정 프롬프트를 로컬 에이전트와 장기 실행 에이전트에서 각각 Codex 5.3으로 테스트했습니다. 로컬 에이전트도 꽤 빨리 문제를 고쳤지만, 장기 실행 에이전트는 더 나아가 엣지 케이스를 찾고, 비슷한 발생 사례를 수정하고, 높은 커버리지의 테스트까지 만들어 줬습니다.

Tejas Haveri
CTO, DevAccel-Labs

Cursor에서 장시간 실행되는 에이전트 사용하기

지난 한 달 동안 우리는 내부적으로 장시간 실행되는 에이전트의 한계를 테스트해 왔습니다. 얼마나 멀리까지 활용할 수 있는지 알아보기 위한 실험뿐만 아니라, Cursor 자체의 프로덕션 작업에도 사용했습니다. 아래는 우리가 장시간 실행되는 에이전트에게 맡겼고 이후에 병합까지 완료한 작업들입니다.

비디오 렌더러 최적화

우리는 배포 성능의 병목이 되고 있던 비디오 렌더러를 최적화해 달라고 에이전트에게 요청했습니다. 에이전트는 전체를 Rust로 마이그레이션하고 커스텀 커널을 구현했으며, 원래 로직만을 바탕으로 동일한 시각적 출력까지 재현했습니다.

샌드박스 코드용 정책 기반 네트워크 액세스

우리는 JSON 기반 네트워크 정책 제어와 샌드박스 프로세스를 위한 로컬 HTTP 프록시가 필요했습니다. 프록시는 여러 프로토콜에서 정확히 동작해야 하고, 정책을 일관되게 적용해야 하며, 차단된 트래픽이 허용되지 않도록 문제가 발생해도 안전하게 실패해야 했습니다. 장시간 실행되는 에이전트는 만 줄 규모의 PR을 생성했으며, 대규모 테스트 스위트를 돌렸을 때 발견된 문제는 매우 적었습니다. 이후 후속 작업은 주로 우리가 초기 요청에서 명시하지 않았던 변경 사항들이었습니다.

Cursor CLI에서의 sudo 지원

일부 작업은 sudo에 도달하는 순간, 특히 시스템 관리나 운영 관련 작업에서 CLI 에이전트를 중단시키곤 합니다. 우리는 장시간 실행되는 에이전트에게 보안을 갖춘 sudo 비밀번호 프롬프트를 구현해 달라고 요청했는데, 이를 위해서는 여러 서브시스템을 연결하고 Unix 인증 플로우를 설계하며 그 동작을 이해해야 했습니다. 에이전트는 동작하는 구현을 만들어 냈고, 현재 Cursor CLI에서 이를 사용하고 있습니다.

자율 주행형 코드베이스를 향해

Cursor의 장기 실행 에이전트는 자율 주행형 코드베이스를 향한 여정에서 초기 이정표입니다. 에이전트가 더 적은 인간 개입으로 더 많은 작업을 처리할 수 있게 되면서, 이제는 더 큰 작업을 위임해 두고 몇 시간 또는 며칠 뒤에 실행 가능한 솔루션으로 돌아올 수 있습니다.

우리는 장기 실행 에이전트 간의 협업을 개선해, 더 큰 프로젝트를 병렬 작업 스트림으로 나누고 더 적은 인간 개입으로 더욱 야심 찬 프로젝트까지 수행할 수 있도록 하고 있습니다.

또한 지금처럼 방대한 양으로 생성되고 있는 코드를 처리하기 위한 새로운 도구를 개발하고 있습니다. 코드 생성 비용이 계속 낮아짐에 따라, 그 코드를 프로덕션 환경에 안전하게 배포하기 위한 새로운 접근 방식이 필요해질 것입니다.

지금 cursor.com/agents에서 장기 실행 에이전트를 사용해 보세요.

카테고리: 제품

작성자: Cursor Team

장기 실행 에이전트 연구 프리뷰 확대 · Cursor