Extension de notre aperçu de recherche sur les agents longue durée

L'aperçu de recherche de Cursor sur les agents longue durée est désormais disponible sur cursor.com/agents pour tous les utilisateurs Ultra, Teams et Enterprise.

L'agent longue durée est le résultat de nos recherches sur des agents travaillant de manière autonome sur des projets plus ambitieux, y compris le travail que nous avons partagé le mois dernier sur la façon dont Cursor a créé un navigateur web.

Au cours de cette expérimentation, nous avons constaté que des modèles de pointe échouaient de manière prévisible sur des tâches de longue haleine. Nous avons levé ces limitations en créant un cadre personnalisé qui permet aux agents de prendre en charge des travaux plus difficiles et de les mener à bien.

Nous avons publié une version de ce cadre la semaine dernière dans le cadre d'un aperçu de recherche. Les résultats montrent que les agents longue durée ont produit des PR nettement plus importantes avec des taux de fusion comparables à ceux des autres agents.

Les agents longue durée ont produit des PR nettement plus importantes avec des taux de fusion comparables

En discutant avec les participants à notre aperçu de recherche, nous avons appris que les agents longue durée ont réussi à mener à bien un éventail de tâches auparavant hors de portée des agents. Quelques exemples d'exécutions issues de l'aperçu de recherche :

Création d'une toute nouvelle plateforme de chat intégrée à un outil open source existant (durée d'exécution : 36 heures)
Implémentation d'une application mobile à partir d'une application web existante (durée d'exécution : 30 heures)
Refactorisation d'un système d'authentification et de RBAC (durée d'exécution : 25 heures)

Rendre les modèles plus performants

La réussite de tâches difficiles nécessite une intelligence de pointe et le bon cadre d’orchestration. En travaillant avec chaque modèle de pointe et en construisant un cadre personnalisé pour chacun, nous sommes dans une position unique pour concevoir la meilleure infrastructure qui exploite les forces de différents modèles. Nous avons constaté qu’il existe quelques principes généraux qui nous aident à obtenir de meilleures performances.

Planifier avant d’exécuter

Lorsque vous itérez directement avec un modèle, des boucles serrées de prompts et de réponses vous permettent de surveiller l’agent et de le remettre sur la bonne trajectoire si nécessaire. Quand l’agent part travailler de façon autonome sur une tâche plus large, une hypothèse légèrement erronée peut se transformer en solution complètement incorrecte à la fin.

Les agents de longue durée de Cursor proposent un plan et attendent une approbation au lieu de se lancer immédiatement dans l’exécution, car ils reconnaissent qu’un alignement initial réduit le besoin d’interventions de suivi.

Mener les tâches jusqu’au bout

Les modèles de pointe peuvent écrire un excellent code, mais oublient souvent la vue d’ensemble de leur tâche, perdent le fil de ce qu’ils font ou s’arrêtent en cours de route.

Les agents de longue durée utilisent un plan et plusieurs agents différents qui vérifient mutuellement leur travail afin de mener à bien des tâches plus vastes et plus complexes.

Résultats à ce jour

Les premiers participants à l’aperçu de recherche ont utilisé des agents longue durée pour implémenter des fonctionnalités majeures, remanier des systèmes complexes, corriger des bugs difficiles, optimiser en profondeur les performances et créer des tests à forte couverture.

J'ai livré deux refontes d'architecture. C'est un outil incroyable pour le travail de type "Je ne sais pas si c'est possible mais je suis curieux de voir". Je peux en lancer cinq en parallèle, pour tout, de la création de gestionnaires de fenêtres Mac à l'intégration de CEF dans Tauri.

Theo Browne

CEO, T3 Chat

Les agents fonctionnaient souvent pendant plus d'une journée, produisant des PR fusionnées avec un travail de suivi minimal. Les utilisateurs pouvaient s'absenter, se concentrer sur d'autres tâches, fermer leur ordinateur portable et revenir à des solutions opérationnelles.

Je pensais que ce projet prendrait tout un trimestre à réaliser. Avec les agents longue durée de Cursor, ce délai s'est réduit à seulement quelques jours. Et j'ai pu mener deux ou trois projets supplémentaires. Je peux lancer une tâche de 52 heures que je n'ai pas à surveiller et revenir à une grosse PR avec 151k lignes de code.

Zack Jackson

Infra Architect, Rspack

Comparés aux agents synchrones, les agents longue durée étaient plus minutieux dans leur approche et produisaient un code plus proche de la mise en production.

La partie magique de la nouvelle infrastructure est de permettre au même modèle de produire quelque chose de prêt pour la production. J'ai testé le même prompt de correction de bug en local et avec un agent longue durée, tous deux avec Codex 5.3. L'agent local l'a corrigée assez rapidement, mais l'agent longue durée est allé plus loin pour trouver les cas limites, corriger des occurrences similaires et créer des tests à forte couverture.

Tejas Haveri

CTO, DevAccel-Labs

Utiliser des agents de longue durée dans Cursor

Au cours du dernier mois, nous avons testé en interne les limites des agents de longue durée. Nous les avons utilisés pour mener des expériences afin de voir jusqu’où nous pouvions les pousser, ainsi que pour du travail en production sur Cursor lui-même. Voici quelques tâches que nous avons confiées à des agents de longue durée et que nous avons depuis fusionnées.

Optimisation d’un moteur de rendu vidéo

Nous avons demandé à un agent d’optimiser un moteur de rendu vidéo dont les performances limitaient le déploiement. Il a effectué une migration complète vers Rust et implémenté des kernels personnalisés, en reproduisant un rendu visuel identique en se basant uniquement sur la logique d’origine.

Accès réseau piloté par des règles pour du code en environnement sandboxé

Nous avions besoin de contrôles de politique réseau pilotés par JSON et d’un proxy HTTP local pour des processus exécutés dans un environnement sandboxé. Le proxy devait fonctionner correctement sur l’ensemble des protocoles, appliquer la politique de manière cohérente et échouer de façon sécurisée sans autoriser le trafic bloqué. L’agent de longue durée a créé une PR de dix mille lignes qui présentait très peu de problèmes lorsque nous l’avons soumise à une suite de tests étendue. Le travail de suivi a principalement consisté en des changements que nous n’avions pas spécifiés dans notre demande initiale.

Prise en charge de sudo dans Cursor CLI

Certaines tâches font échouer les agents CLI dès qu’ils rencontrent sudo, en particulier les tâches liées à l’administration système ou aux opérations (ops). Nous avons demandé à un agent de longue durée d’implémenter une saisie sécurisée du mot de passe sudo, ce qui nécessitait de raccorder plusieurs sous-systèmes et de raisonner sur les flux d’authentification Unix. Il a produit une implémentation fonctionnelle qui est désormais utilisée par Cursor CLI.

Vers des bases de code autonomes

Les agents de longue durée de Cursor représentent une première étape sur la voie des bases de code autonomes, où les agents peuvent prendre en charge davantage de travail avec moins d’intervention humaine. Il est désormais possible de déléguer des tâches plus importantes et de revenir des heures, voire des jours plus tard pour trouver des solutions opérationnelles.

Nous travaillons à améliorer la collaboration entre les agents de longue durée afin qu’ils puissent découper des projets plus importants en flux de travail parallèles et s’attaquer à des projets encore plus ambitieux avec moins d’intervention humaine.

Nous développons également de nouveaux outils pour gérer le volume de code désormais généré. À mesure que le coût de génération de code continue de baisser, nous aurons besoin de nouvelles approches pour déployer ce code en production en toute sécurité.

Essayez dès aujourd’hui les agents de longue durée sur cursor.com/agents.

L'aperçu de recherche de Cursor sur les agents longue durée est désormais disponible sur cursor.com/agents pour tous les utilisateurs Ultra, Teams et Enterprise.

Création d'une toute nouvelle plateforme de chat intégrée à un outil open source existant (durée d'exécution : 36 heures)
Implémentation d'une application mobile à partir d'une application web existante (durée d'exécution : 30 heures)
Refactorisation d'un système d'authentification et de RBAC (durée d'exécution : 25 heures)