Les agents Cursor peuvent désormais piloter leurs propres ordinateurs

Les agents ne sont jamais plus performants que l'environnement dans lequel ils s'exécutent. Sans la possibilité d'utiliser le logiciel qu'ils créent, ils finissent par atteindre leurs limites.

Au cours des derniers mois, nous avons résolu ce problème en interne en donnant aux agents leurs propres machines virtuelles avec des environnements de développement complets, ainsi que la possibilité de tester leurs modifications et de produire des artefacts (vidéos, captures d'écran et journaux) afin que vous puissiez valider rapidement leur travail.

Aujourd'hui, nous rendons une nouvelle version des agents cloud Cursor accessible partout où vous travaillez, notamment sur le Web, sur mobile, dans l'application de bureau, sur Slack et sur GitHub. Les agents cloud s'intègrent eux-mêmes à votre base de code et produisent des PR prêtes à être fusionnées, avec des artefacts pour faire la démo de leurs modifications. Vous pouvez également contrôler le bureau distant de l'agent pour utiliser le logiciel modifié et apporter vous-même des modifications, sans avoir à récupérer la branche en local.

C'est le plus grand changement dans notre façon de créer des logiciels depuis le passage de l'autocomplétion Tab au travail synchrone avec des agents. Plus de 30 % des PR que nous fusionnons chez Cursor sont désormais créées par des agents opérant de façon autonome dans des sandboxes cloud.

30 % des PR internes fusionnées sont désormais créées par des agents cloud

Un niveau d’autonomie supérieur

Les agents locaux permettent de commencer facilement à générer du code, mais ils se heurtent rapidement à des conflits et se disputent entre eux (et avec vous) les ressources de votre ordinateur. Les Agents Cloud suppriment cette contrainte en donnant à chaque agent une VM isolée, afin que vous puissiez en exécuter plusieurs en parallèle.

Les Agents Cloud peuvent également créer des logiciels et interagir directement avec eux dans leur propre sandbox, ce qui leur permet d’itérer jusqu’à avoir validé leurs résultats, au lieu de s’arrêter à une première tentative. La vidéo ci-dessous présente une preuve de concept issue de nos recherches antérieures sur l’utilisation avancée de l’ordinateur.

Vous pouvez voir l’agent naviguer sur des pages web dans le navigateur, manipuler des outils comme des feuilles de calcul, interpréter des données, prendre des décisions et résoudre des problèmes dans des interfaces utilisateur complexes.

L’agent s’est enregistré en train d’interagir avec des applications de bureau dans sa VM.

Utiliser les agents cloud chez Cursor

Depuis un mois, nous utilisons les agents cloud en interne, et cela a changé notre façon de développer des logiciels. Au lieu de découper les tâches en petites étapes et de superviser les agents de près, nous leur déléguons des tâches plus ambitieuses et les laissons travailler de façon autonome.

Voici quelques-unes des façons dont nous utilisons les agents cloud :

Développer de nouvelles fonctionnalités

Nous avons utilisé les agents cloud pour nous aider à créer des plugins, que nous avons récemment lancés sur le Cursor Marketplace. Voici l’une de nos requêtes :

Pour chaque composant affiché sur la page d’un plugin donné, nous aimerions inclure un lien vers le code source. Pour les skills, commands, rules et subagents, il s’agit du fichier .md. Pour les hooks, c’est le hooks.json. Pour les MCP, c’est le .mcp.json ou le manifest dans lequel ils sont définis. Comme nous indexons tous les composants d’un plugin, garde une trace du fichier source et construis des liens vers ce fichier à partir de l’URL GitHub sous-jacente. Fais remonter cela jusqu’au frontend et fais en sorte que notre frontend crée un lien vers GitHub à l’aide de cette icône. Teste avec https://github.com/prisma/cursor-plugin en local

L’agent a implémenté la fonctionnalité, puis s’est enregistré pendant qu’il naviguait vers le plugin Prisma importé et cliquait sur chaque composant pour vérifier les liens GitHub.

L’agent s’est enregistré en train de cliquer sur des boutons pour vérifier qu’ils pointent vers les bons fichiers source.

Pour les tests en local, l’agent a temporairement contourné le feature flag qui contrôlait l’accès à la page du Marketplace, puis a annulé ce changement avant de pousser. Il a rebasé sur main, résolu les conflits de fusion et réduit le tout à un seul commit.

Reproduire des vulnérabilités

Nous avons lancé un agent cloud depuis Slack avec la requête « Please triage and explain this vulnerability to me in great detail », suivie d’une description d’une vulnérabilité d’exfiltration du presse-papiers. Une fois l’exécution terminée, l’agent a répondu dans le fil Slack avec un résumé de ce qu’il avait accompli.

Agent cloud reproduisant une vulnérabilité

L’agent a créé une page HTML qui exploite la vulnérabilité via une API exposée. Il a démarré un serveur backend pour héberger la page de démo en local et l’a chargée dans le navigateur intégré de Cursor.

La vidéo montre le déroulement complet de l’attaque : l’agent a copié un UUID de test dans le presse-papiers du système, a chargé la page de démo dans le navigateur de Cursor, puis a cliqué sur un bouton pour exfiltrer et afficher l’UUID. Il a également pris une capture d’écran montrant le vol réussi du presse-papiers et a ajouté le fichier HTML de démo au dépôt dans un commit.

L’agent s’est enregistré en train de parcourir le flux d’attaque pour démontrer la vulnérabilité.

Appliquer des corrections rapides

Nous avons demandé à un agent cloud de remplacer le libellé statique « Read lints » par un libellé dynamique basé sur les résultats de lint. Il a implémenté « No linter errors » pour zéro diagnostic et « Found N errors » pour N diagnostics, avec un style cohérent avec le CSS existant.

L’agent a testé deux cas dans l’application de bureau Cursor : un fichier avec plusieurs erreurs de type et un fichier propre sans erreur. La vidéo montre l’agent en train de vérifier que le fichier propre a un groupe déployé qui affiche « No linter errors ».

L’agent s’est enregistré pour montrer qu’il avait correctement implémenté la correction du libellé de lint.

Tester l’UI

Nous avons lancé un agent cloud pour vérifier que tout fonctionne correctement sur cursor.com/docs. Il a passé 45 minutes à effectuer un parcours complet de notre site de documentation. L’agent a fourni un résumé de toutes les fonctionnalités qu’il a testées, notamment la barre latérale, la navigation supérieure, la recherche, le bouton de copie de page, la boîte de dialogue de partage de commentaires, la table des matières et le changement de thème.

L’agent s’est enregistré en train de tester l’UI sur le site de documentation de Cursor.

Maintenant que les agents peuvent prendre en charge l’essentiel de l’implémentation, nous avons constaté que le rôle d’un développeur consiste davantage à donner une direction et à décider de ce qui sera livré.

La suite

Nous créons un avenir de bases de code autonomes, où les agents fusionnent des PR, gèrent les déploiements progressifs et surveillent la production. Nous passerons d’un monde où les développeurs utilisent des agents pour créer des diffs à un monde où les agents livrent des fonctionnalités testées de bout en bout.

Concrétiser pleinement cette transition nécessitera d’améliorer les outils, les modèles et les patterns d’interaction. À court terme, nous nous concentrons sur la coordination du travail entre de nombreux agents et sur la création de modèles qui apprennent des exécutions précédentes et gagnent en efficacité à mesure qu’ils accumulent de l’expérience.

Commencez sur cursor.com/onboard pour voir l’agent se configurer seul et enregistrer une démo. Ou découvrez-en plus dans la documentation.

Les agents ne sont jamais plus performants que l'environnement dans lequel ils s'exécutent. Sans la possibilité d'utiliser le logiciel qu'ils créent, ils finissent par atteindre leurs limites.