코딩 Agent가 생산성에 미치는 영향
우리는 개발자들이 업무에서 Cursor의 Agent를 어떻게 활용하는지, 그리고 조직에서 Cursor가 생산성에 어떤 영향을 미치는지에 대해 여전히 남아 있는 여러 질문들에 관심을 가지고 있습니다.
시카고 대학교에서 재무 및 응용 AI를 연구하는 조교수 Suproteem Sarkar는 최근 수만 명의 Cursor 사용자 데이터를 바탕으로 연구를 수행해 Agent의 초기 영향을 분석했습니다.
연구 결과, Cursor의 Agent가 기본값이 된 이후 기업들은 PR을 39% 더 많이 병합하는 것으로 나타났습니다. 또한 숙련된 개발자일수록 코드를 작성하기 전에 더 많은 계획을 세우고, Agent를 더 능숙하게 활용하는 경향이 있는 것으로 확인되었습니다.
에이전트가 작성한 코드 수용하기
이번 연구에서는 두 가지 지표를 살펴보았습니다. 사용자가 에이전트에 요청을 보내는 빈도와, 에이전트의 코드 수정 사항을 얼마나 자주 받아들이는지입니다. 사용자가 에이전트의 수정을 수용하는지는 결과물이 자신의 의도와 얼마나 잘 맞는지, 그리고 생성된 코드를 적용할 때의 허용 기준에 따라 달라집니다.
주니어 개발자는 Tab이 작성한 코드를 더 자주 받아들이는 반면, 시니어 개발자는 에이전트가 작성한 코드를 더 자주 받아들이는 경향이 있습니다. 경험 연수가 1 표준편차 증가할 때마다 평균 대비 에이전트 코드 수용률이 약 6% 증가하는 것을 확인했습니다.


경험이 적은 개발자들이 에이전트를 더 많이 사용하고 더 높은 비율로 수용할 것이라고 예상했지만, 실제로는 그 반대인 것처럼 보입니다!
가능한 몇 가지 가설은 다음과 같습니다.
-
숙련된 개발자일수록 커스텀 규칙을 사용하거나 컨텍스트를 더 효과적으로 관리하는 방식으로 에이전트를 더 잘 활용할 수 있습니다.
-
에이전트가 작성한 코드 변경 사항을 평가할 수 있다는 자신감이 더 높기 때문에 이를 수용하려는 의지도 커집니다.
-
에이전트가 적은 반복으로 완료하기 쉬운, 범위가 더 명확하게 정의된 작업을 맡는 경우가 더 많습니다.
생산성에 미치는 영향
이 연구는 Agent가 Cursor에서 기본 모드가 된 이후, 처리량과 품질을 나타내는 대리 지표들이 어떻게 변했는지를 측정했습니다. Agent가 출시되기 전에 이미 Cursor를 사용하고 있던 ‘eligible’ 조직 그룹과, 분석 기간 동안 Cursor를 사용하지 않았던 ‘baseline’ 조직 그룹 간에 이러한 지표를 비교했습니다. 그 결과, baseline 그룹의 동기간 추세와 비교했을 때 병합된 PR 비율이 39% 증가한 것으로 나타났습니다.


다른 지표 전반에 걸쳐, 연구는 PR 되돌림 비율은 유의미하게 변하지 않았고 버그 수정 비율은 소폭 감소했다고 발견했습니다. 또한 병합된 PR당 평균 편집된 코드 줄 수와 평균 변경된 파일 수 역시 유의미한 변화를 보이지 않았습니다.
사용자 행동과 활용 방식
요청 내용은 개발자들이 Agent를 어떻게 사용하고 있으며, 어떤 작업을 수행하려 하는지를 보여줍니다. 1,000명의 사용자 표본을 분석한 결과, 대화를 시작하는 요청은 크게 세 가지 범주로 나뉘었습니다: 코드를 구현해 달라는 요청, 코드와 오류를 설명해 달라는 요청, 그리고 어떤 작업을 계획하는 요청입니다. 이 중 대부분의 대화 시작 요청(약 61%)은 구현 요청으로, Agent에게 코드를 생성하도록 지시하는 경우였습니다.


연구에 따르면, 더 숙련된 개발자일수록 코드를 생성하기 전에 먼저 작업을 계획하는 경향이 더 높은 것으로 나타났습니다.
결론
소프트웨어 엔지니어링에서 AI의 경제적 영향을 측정하기 위한 단일하고 확정적인 지표는 아직 없습니다. 다른 신기술과 마찬가지로, AI의 가치를 온전히 실현하는 데에는 시간이 필요합니다.
우리는 이러한 초기 연구 결과에 고무되어 있으며, 앞으로도 Cursor가 생산성에 미치는 영향을 계속해서 연구하고자 합니다.
전체 연구를 확인하려면 여기에서 전문을 보실 수 있습니다.