Composer 1.5 소개

몇 달 전, 우리는 첫 번째 에이전트 기반 코딩 모델인 Composer 1을 출시했습니다. 그 이후로 모델의 코딩 능력을 크게 향상시켰습니다.

새로 출시된 Composer 1.5는 일상적인 사용에 적합하도록 속도와 지능 사이에서 뛰어난 균형을 이룹니다. Composer 1.5는 동일한 사전 학습 모델 위에서 강화 학습을 20배 더 확장해 구축되었습니다. Composer 1.5의 사후 학습에 사용된 연산량은 베이스 모델 사전 학습에 사용된 양을 넘어섭니다.

스케일을 키울수록 코딩 능력이 계속 향상되는 것을 확인했습니다. 실제 환경의 코딩 문제를 바탕으로 한 내부 벤치마크에서, 이 모델은 Composer 1을 빠르게 추월한 뒤 성능이 계속해서 상승하는 것을 보여줍니다. 특히 까다로운 작업에서 향상이 가장 크게 나타납니다.

Composer 1.5는 생각하는 모델입니다. 쿼리에 응답하는 과정에서, 이 모델은 사용자의 코드베이스를 이해하고 다음 단계를 계획하기 위해 thinking 토큰을 생성합니다. 우리는 이러한 사고 단계가 모델의 지능에 결정적으로 중요하다는 것을 확인했습니다. 동시에, Composer 1.5가 일상적인 사용에 충분히 빠르고 대화형으로 유지되길 바랐습니다. 균형을 맞추기 위해, 모델은 쉬운 문제에서는 최소한의 사고만으로 빠르게 응답하도록, 어려운 문제에서는 만족스러운 답을 찾을 때까지 충분히 생각하도록 학습되었습니다.¹

Terminal-Bench 2.0에서의 Composer 1.5 벤치마크 결과

더 오래 실행되는 작업을 처리하기 위해, Composer 1.5는 자기 요약(self-summarize) 기능을 갖추고 있습니다. 이를 통해 사용 가능한 컨텍스트를 모두 소진했을 때도 해결책을 계속 탐색할 수 있습니다. 우리는 학습 중 컨텍스트가 소진되었을 때 유용한 요약을 생성하도록 요구하는 방식으로, RL 과정의 일부로 Composer 1.5에 자기 요약 기능을 학습시켰습니다. 어려운 예제에서는 이 과정이 여러 번 재귀적으로 트리거될 수 있습니다. 우리는 자기 요약 기능 덕분에 컨텍스트 길이가 변해도 모델이 원래의 정확도를 유지할 수 있음을 확인했습니다.

Composer 1.5는 Composer 1보다 훨씬 강력한 모델이며, 대화형 사용에 특히 권장됩니다. 이 모델의 학습 과정은 코딩을 위한 RL이 예측 가능한 지능 향상과 함께 지속적으로 확장될 수 있음을 보여줍니다.

Composer 1.5의 요금에 대해 더 알아보려면 여기를 참고하세요.

Terminal-Bench 2.0은 Laude Institute가 유지 관리하는 터미널용 에이전트 평가 벤치마크입니다. Anthropic 모델 점수는 Claude Code 하네스를 사용하고, OpenAI 모델 점수는 Simple Codex 하네스를 사용합니다. 우리의 Cursor 점수는 기본 벤치마크 설정으로 공식 Harbor 평가 프레임워크(Terminal-Bench 2.0의 지정 하네스)를 사용해 계산했습니다. 각 모델-에이전트 쌍마다 2회씩 실행한 뒤 평균 값을 보고했습니다. 벤치마크에 대한 더 자세한 내용은 공식 Terminal Bench 웹사이트에서 확인할 수 있습니다. Composer 1.5를 제외한 다른 모델의 경우, 공식 리더보드 점수와 우리 인프라에서 실행해 기록한 점수 중 더 높은 값을 사용했습니다. ↩

몇 달 전, 우리는 첫 번째 에이전트 기반 코딩 모델인 Composer 1을 출시했습니다. 그 이후로 모델의 코딩 능력을 크게 향상시켰습니다.

Composer 1.5의 요금에 대해 더 알아보려면 여기를 참고하세요.

Terminal-Bench 2.0은 Laude Institute가 유지 관리하는 터미널용 에이전트 평가 벤치마크입니다. Anthropic 모델 점수는 Claude Code 하네스를 사용하고, OpenAI 모델 점수는 Simple Codex 하네스를 사용합니다. 우리의 Cursor 점수는 기본 벤치마크 설정으로 공식 Harbor 평가 프레임워크(Terminal-Bench 2.0의 지정 하네스)를 사용해 계산했습니다. 각 모델-에이전트 쌍마다 2회씩 실행한 뒤 평균 값을 보고했습니다. 벤치마크에 대한 더 자세한 내용은 공식 Terminal Bench 웹사이트에서 확인할 수 있습니다. Composer 1.5를 제외한 다른 모델의 경우, 공식 리더보드 점수와 우리 인프라에서 실행해 기록한 점수 중 더 높은 값을 사용했습니다. ↩

몇 달 전, 우리는 첫 번째 에이전트 기반 코딩 모델인 Composer 1을 출시했습니다. 그 이후로 모델의 코딩 능력을 크게 향상시켰습니다.

Composer 1.5의 요금에 대해 더 알아보려면 여기를 참고하세요.

Terminal-Bench 2.0은 Laude Institute가 유지 관리하는 터미널용 에이전트 평가 벤치마크입니다. Anthropic 모델 점수는 Claude Code 하네스를 사용하고, OpenAI 모델 점수는 Simple Codex 하네스를 사용합니다. 우리의 Cursor 점수는 기본 벤치마크 설정으로 공식 Harbor 평가 프레임워크(Terminal-Bench 2.0의 지정 하네스)를 사용해 계산했습니다. 각 모델-에이전트 쌍마다 2회씩 실행한 뒤 평균 값을 보고했습니다. 벤치마크에 대한 더 자세한 내용은 공식 Terminal Bench 웹사이트에서 확인할 수 있습니다. Composer 1.5를 제외한 다른 모델의 경우, 공식 리더보드 점수와 우리 인프라에서 실행해 기록한 점수 중 더 높은 값을 사용했습니다. ↩

Composer 1.5 소개

관련 게시물

Composer 1.5 소개

관련 게시물

Composer 1.5 소개

관련 게시물