Apresentando o Composer 1.5

Há alguns meses, lançamos nosso primeiro modelo de programação com agentes, Composer 1. Desde então, fizemos melhorias significativas na capacidade de programação do modelo.

Nossa nova versão, Composer 1.5, equilibra muito bem velocidade e inteligência para o uso diário. O Composer 1.5 foi desenvolvido escalando o aprendizado por reforço em mais de 20x no mesmo modelo pré-treinado. O poder computacional usado no pós-treinamento do Composer 1.5 até supera a quantidade usada para pré-treinar o modelo base.

Continuamos vendo melhorias na capacidade de programação à medida que escalamos. Medido pelo nosso benchmark interno de problemas de programação do mundo real, constatamos que o modelo rapidamente supera o Composer 1 e continua evoluindo em desempenho. As melhorias são mais significativas em tarefas desafiadoras.

O Composer 1.5 é um modelo que pensa. No processo de responder a solicitações, o modelo gera tokens de raciocínio para entender a base de código do usuário e planejar os próximos passos. Constatamos que essas etapas de raciocínio são fundamentais para a inteligência do modelo. Ao mesmo tempo, queríamos manter o Composer 1.5 rápido e interativo para o uso do dia a dia. Para alcançar esse equilíbrio, o modelo é treinado para responder rapidamente em problemas fáceis com raciocínio mínimo, enquanto em problemas difíceis ele continuará pensando até encontrar uma resposta satisfatória.¹

Resultados de benchmark do Composer 1.5 no Terminal-Bench 2.0

Para lidar com tarefas de execução mais longa, o Composer 1.5 tem a capacidade de fazer auto-resumos. Isso permite que o modelo continue explorando uma solução mesmo quando fica sem contexto disponível. Treinamos o auto-resumo no Composer 1.5 como parte de RL, pedindo para ele produzir um resumo útil quando o contexto se esgota durante o treinamento. Isso pode ser acionado várias vezes, de forma recursiva, em exemplos difíceis. Constatamos que o auto-resumo permite que o modelo mantenha sua precisão original conforme o comprimento de contexto varia.

O Composer 1.5 é um modelo significativamente mais robusto que o Composer 1 e o recomendamos para uso interativo. Seu treinamento demonstra que RL para programação pode ser continuamente escalado com melhorias previsíveis de inteligência.

Saiba mais sobre os preços do Composer 1.5 aqui.

Terminal-Bench 2.0 é um benchmark de avaliação de agentes para uso em terminal mantido pelo Laude Institute. As pontuações dos modelos da Anthropic usam o harness Claude Code e as pontuações dos modelos da OpenAI usam o harness Simple Codex. Nossa pontuação do Cursor foi calculada usando o Harbor evaluation framework oficial (o harness designado para o Terminal-Bench 2.0) com as configurações padrão do benchmark. Executamos 2 iterações por par modelo-agente e reportamos a média. Mais detalhes sobre o benchmark podem ser encontrados no site oficial do Terminal Bench. Para outros modelos além do Composer 1.5, usamos a maior pontuação entre a pontuação da leaderboard oficial e a pontuação registrada em nossa infraestrutura. ↩

Há alguns meses, lançamos nosso primeiro modelo de programação com agentes, Composer 1. Desde então, fizemos melhorias significativas na capacidade de programação do modelo.

Saiba mais sobre os preços do Composer 1.5 aqui.

Terminal-Bench 2.0 é um benchmark de avaliação de agentes para uso em terminal mantido pelo Laude Institute. As pontuações dos modelos da Anthropic usam o harness Claude Code e as pontuações dos modelos da OpenAI usam o harness Simple Codex. Nossa pontuação do Cursor foi calculada usando o Harbor evaluation framework oficial (o harness designado para o Terminal-Bench 2.0) com as configurações padrão do benchmark. Executamos 2 iterações por par modelo-agente e reportamos a média. Mais detalhes sobre o benchmark podem ser encontrados no site oficial do Terminal Bench. Para outros modelos além do Composer 1.5, usamos a maior pontuação entre a pontuação da leaderboard oficial e a pontuação registrada em nossa infraestrutura. ↩

Há alguns meses, lançamos nosso primeiro modelo de programação com agentes, Composer 1. Desde então, fizemos melhorias significativas na capacidade de programação do modelo.

Saiba mais sobre os preços do Composer 1.5 aqui.

Terminal-Bench 2.0 é um benchmark de avaliação de agentes para uso em terminal mantido pelo Laude Institute. As pontuações dos modelos da Anthropic usam o harness Claude Code e as pontuações dos modelos da OpenAI usam o harness Simple Codex. Nossa pontuação do Cursor foi calculada usando o Harbor evaluation framework oficial (o harness designado para o Terminal-Bench 2.0) com as configurações padrão do benchmark. Executamos 2 iterações por par modelo-agente e reportamos a média. Mais detalhes sobre o benchmark podem ser encontrados no site oficial do Terminal Bench. Para outros modelos além do Composer 1.5, usamos a maior pontuação entre a pontuação da leaderboard oficial e a pontuação registrada em nossa infraestrutura. ↩

Apresentando o Composer 1.5

Postagens relacionadas

Apresentando o Composer 1.5

Postagens relacionadas

Apresentando o Composer 1.5

Postagens relacionadas