Ampliando nossa prévia de pesquisa sobre agentes de longa duração

A prévia de pesquisa de agentes de longa duração do Cursor agora está disponível em cursor.com/agents para todos os usuários Ultra, Teams e Enterprise.

O agente de longa duração é o resultado da nossa pesquisa sobre agentes trabalhando de forma autônoma em projetos mais ambiciosos, incluindo o trabalho que compartilhamos no mês passado sobre como o Cursor construiu um navegador web.

Durante esse experimento, vimos modelos de ponta falharem de maneiras previsíveis em tarefas de longo prazo. Lidamos com essas limitações ao criar um framework personalizado que permite que agentes assumam trabalhos mais difíceis e os levem até a conclusão.

Lançamos uma versão desse framework na semana passada como parte de uma prévia de pesquisa. Os resultados mostram que agentes de longa duração produziram PRs substancialmente maiores com taxas de merge comparáveis às de outros agentes.

Agentes de longa duração produziram PRs substancialmente maiores com taxas de merge comparáveis

Conversando com participantes da nossa prévia de pesquisa, ouvimos que agentes de longa duração concluíram com sucesso uma série de tarefas que antes estavam fora do alcance desses agentes. Alguns exemplos de execuções da prévia de pesquisa incluem:

Construir uma plataforma de chat totalmente nova integrada a uma ferramenta open source existente (tempo de execução: 36 horas)
Implementar um aplicativo mobile com base em um aplicativo web existente (tempo de execução: 30 horas)
Refatorar um sistema de autenticação e RBAC (tempo de execução: 25 horas)

Tornando os modelos mais capazes

Concluir tarefas difíceis com sucesso exige inteligência de ponta e a orquestração certa. Ao trabalhar com cada modelo de ponta e construir uma orquestração personalizada para cada um, estamos em uma posição única para criar o melhor arcabouço, aproveitando os pontos fortes de diferentes modelos. Descobrimos que há alguns princípios gerais que nos ajudam a alcançar um desempenho melhor.

Planejamento antes da execução

Ao iterar diretamente com um modelo, loops curtos de prompt-resposta permitem monitorar o agente e colocá-lo de volta no rumo quando necessário. Quando o agente passa a trabalhar de forma autônoma em uma tarefa maior, uma suposição levemente incorreta pode se transformar em uma solução completamente errada ao final.

Agentes de longa duração no Cursor propõem um plano e aguardam aprovação em vez de entrarem imediatamente em execução, reconhecendo que um alinhamento antecipado reduz a necessidade de intervenções posteriores.

Cumprindo as tarefas até o fim

Modelos de ponta podem escrever ótimo código, mas muitas vezes esquecem o panorama geral da tarefa, perdem o fio do que estão fazendo ou param em uma conclusão parcial.

Agentes de longa duração usam um plano e vários agentes diferentes verificando o trabalho uns dos outros para conseguir levar até o fim tarefas maiores e mais complexas.

Descobertas até o momento

Os participantes iniciais da prévia de pesquisa usaram agentes de longa duração para implementar grandes recursos, refatorar sistemas complexos, corrigir bugs desafiadores, reestruturar desempenho e criar testes com alta cobertura.

Eu entreguei duas grandes reformulações de arquitetura. É uma ferramenta incrível para trabalhos do tipo "Não sei se isso é possível, mas tenho curiosidade em ver". Consigo executar cinco em paralelo, para tudo, desde criar gerenciadores de janelas no Mac até integrar o CEF ao Tauri.

Theo Browne

CEO, T3 Chat

Os agentes frequentemente ficavam em execução por mais de um dia, produzindo PRs que eram mesclados com trabalho de acompanhamento mínimo. Os usuários podiam se afastar, focar em outras tarefas, fechar o laptop e voltar para soluções prontas e funcionando.

Eu tinha planejado que este projeto levasse um trimestre inteiro para ser concluído. Com os agentes de longa duração do Cursor, esse prazo caiu para apenas alguns dias. E eu consegui fazer dois ou três projetos adicionais. Consigo iniciar uma tarefa de 52 horas que não preciso supervisionar e voltar para um grande PR com 151 mil linhas de código.

Zack Jackson

Arquiteto de Infraestrutura, Rspack

Em comparação com agentes síncronos, os agentes de longa duração foram mais minuciosos em sua abordagem e escreveram código mais pronto para produção.

A parte mágica do novo harness é permitir que o mesmo modelo torne algo pronto para produção. Testei o mesmo prompt de correção de bug localmente versus com um agente de longa duração, ambos com Codex 5.3. O agente local corrigiu razoavelmente rápido, mas o de longa duração foi além: encontrou casos de borda, corrigiu ocorrências semelhantes e criou testes com alta cobertura.

Tejas Haveri

CTO, DevAccel-Labs

Usando agentes de longa duração no Cursor

No último mês, passamos testando internamente os limites de agentes de longa duração. Usamos esses agentes em experimentos para ver até onde poderíamos levá-los, assim como em trabalho de produção no próprio Cursor. Aqui estão algumas tarefas que demos a agentes de longa duração e que já foram incorporadas.

Otimização de renderizador de vídeo

Pedimos para um agente otimizar um renderizador de vídeo cujo desempenho estava se tornando um gargalo na implantação. Ele concluiu uma migração completa para Rust e implementou kernels personalizados, reproduzindo uma saída visual idêntica trabalhando apenas a partir da lógica original.

Acesso à rede orientado por políticas para código em sandbox

Precisávamos de controles de política de rede orientados por JSON e de um proxy HTTP local para processos em sandbox. O proxy precisava funcionar corretamente em diferentes protocolos, aplicar políticas de forma consistente e falhar com segurança, sem permitir tráfego bloqueado. O agente de longa duração criou uma PR de dez mil linhas que teve pouquíssimos problemas quando executamos uma suíte de testes extensa contra ela. O trabalho de acompanhamento consistiu principalmente em mudanças que não especificamos no nosso pedido inicial.

Suporte a sudo no Cursor CLI

Algumas tarefas quebram agentes de CLI no momento em que encontram sudo, especialmente tarefas relacionadas à administração de sistema ou operações. Pedimos para um agente de longa duração implementar um prompt seguro de senha para sudo, o que exigiu integrar vários subsistemas e raciocinar sobre fluxos de autenticação do Unix. Ele produziu uma implementação funcional que o Cursor CLI utiliza atualmente.

Rumo a bases de código autônomas

Agentes de longa duração no Cursor são um marco inicial no caminho rumo a codebases autônomas, em que agentes conseguem lidar com mais trabalho com menos intervenção humana. Agora é possível delegar tarefas maiores e voltar horas ou dias depois para encontrar soluções funcionando.

Estamos trabalhando para melhorar a colaboração entre agentes de longa duração, para que eles possam dividir projetos maiores em fluxos de trabalho paralelos e assumir projetos ainda mais ambiciosos com menos intervenção humana.

Também estamos desenvolvendo novas ferramentas para lidar com o volume de código que está sendo gerado. À medida que o custo da geração de código continua caindo, vamos precisar de novas abordagens para colocar esse código em produção com segurança.

Experimente hoje mesmo os agentes de longa duração em cursor.com/agents.

A prévia de pesquisa de agentes de longa duração do Cursor agora está disponível em cursor.com/agents para todos os usuários Ultra, Teams e Enterprise.

Construir uma plataforma de chat totalmente nova integrada a uma ferramenta open source existente (tempo de execução: 36 horas)
Implementar um aplicativo mobile com base em um aplicativo web existente (tempo de execução: 30 horas)
Refatorar um sistema de autenticação e RBAC (tempo de execução: 25 horas)