Cursor-Agents können jetzt ihre eigenen Computer steuern
Agents sind nur so leistungsfähig wie die Umgebung, in der sie ausgeführt werden. Ohne die Möglichkeit, die Software zu nutzen, die sie erstellen, stoßen Agents an eine Grenze.
In den letzten Monaten haben wir das intern gelöst, indem wir Agents eigene virtuelle Maschinen mit vollständigen Entwicklungsumgebungen zur Verfügung gestellt haben – inklusive der Möglichkeit, ihre Änderungen zu testen und Artefakte (Videos, Screenshots und Logs) zu erzeugen, damit du ihre Arbeit schnell überprüfen kannst.
Heute stellen wir eine neue Version der Cursor Cloud-Agents bereit, auf die du von überall aus zugreifen kannst – einschließlich Web, Mobile, Desktop-App, Slack und GitHub. Cloud-Agents onboarden sich selbst auf deiner Codebase und erzeugen merge-fertige PRs mit Artefakten, um ihre Änderungen zu demonstrieren. Du kannst außerdem den Remote-Desktop des Agents steuern, um die geänderte Software zu verwenden und selbst Änderungen vorzunehmen, ohne den Branch lokal auschecken zu müssen.
Das ist die größte Veränderung beim Entwickeln von Software seit dem Wechsel von Tab Autocomplete zum synchronen Arbeiten mit Agents. Mehr als 30 % der PRs, die wir bei Cursor mergen, werden inzwischen von Agents erzeugt, die autonom in Cloud-Sandbox-Umgebungen arbeiten.


Die nächste Stufe der Autonomie
Lokale Agents machen es einfach, mit der Codegenerierung zu beginnen, stoßen jedoch schnell auf Konflikte und konkurrieren untereinander (und mit dir) um die Ressourcen deines Computers. Cloud Agents beseitigen diese Einschränkung, indem sie jedem Agent eine isolierte VM zur Verfügung stellen, sodass du viele parallel ausführen kannst.
Cloud Agents können außerdem Software direkt in ihrer eigenen Sandbox entwickeln und mit ihr interagieren. So können sie iterieren, bis sie ihre Ergebnisse validiert haben, anstatt einfach den ersten Versuch zu übergeben. Das Video unten zeigt einen Proof-of-Concept aus unserer früheren Forschung zum erweiterten Computereinsatz.
Du kannst sehen, wie der Agent sich im Browser durch Webseiten bewegt, mit Tools wie Tabellenkalkulationen arbeitet, Daten interpretiert, Entscheidungen trifft und Probleme in komplexen UI-Umgebungen löst.
Verwendung von Cloud-Agents in Cursor
Im vergangenen Monat haben wir intern Cloud-Agents verwendet, und das hat verändert, wie wir Software entwickeln. Anstatt Aufgaben in kleine Teile zu zerlegen und Agents mikromanagen zu müssen, delegieren wir größere, ambitioniertere Aufgaben und lassen sie eigenständig laufen.
So setzen wir Cloud-Agents aktuell ein:
Neue Features entwickeln
Wir haben Cloud-Agents verwendet, um uns beim Entwickeln von Plugins zu helfen, die wir vor Kurzem auf dem Cursor Marketplace veröffentlicht haben. Hier ist einer unserer Prompts:
For each component displayed in a given plugin's page, we'd like to include a link to the source code. For skills, commands, rules, and subagents - that's the .md file. For hooks, it's the hooks.json. For mcps, it's the .mcp.json or the manifest where it's defined. As we index all the components of a plugin, keep track of the source file and construct links to that file by way of the underlying github url. Surface this to the frontend and have our frontend link out to github using this icon. Test w/
https://github.com/prisma/cursor-pluginlocally
Der Agent hat das Feature implementiert und anschließend aufgezeichnet, wie er das importierte Prisma-Plugin öffnet und auf jede Komponente klickt, um die GitHub-Links zu verifizieren.
Für lokale Tests hat der Agent das Feature-Flag, das die Marketplace-Seite steuert, vorübergehend umgangen und es vor dem Pushen wiederhergestellt. Er hat auf den main-Branch rebased, Merge-Konflikte gelöst und auf einen einzelnen Commit gesquasht.
Sicherheitslücken reproduzieren
Wir haben aus Slack heraus einen Cloud-Agent mit dem Prompt gestartet: "Please triage and explain this vulnerability to me in great detail", gefolgt von der Beschreibung einer Sicherheitslücke zur Exfiltration aus der Zwischenablage. Als der Agent fertig war, antwortete er im Slack-Thread mit einer Zusammenfassung seiner Ergebnisse.
Der Agent hat eine HTML-Seite erstellt, die die Sicherheitslücke über eine exponierte API ausnutzt. Er hat einen Backend-Server gestartet, um die Demo-Seite lokal zu hosten, und die Seite im In-App-Browser von Cursor geladen.
Die Videoaufzeichnung zeigt den vollständigen Angriffsablauf: Der Agent hat eine Test-UUID in die System-Zwischenablage kopiert, die Demo-Seite im Browser von Cursor geladen und auf einen Button geklickt, um die UUID zu exfiltrieren und anzuzeigen. Außerdem hat er einen Screenshot gemacht, der den erfolgreichen Diebstahl aus der Zwischenablage zeigt, und die Demo-HTML-Datei ins Repo committet.
Schnelle Fixes durchführen
Wir haben einen Cloud-Agent gebeten, das statische Label "Read lints" durch ein dynamisches zu ersetzen, das von den Lint-Ergebnissen gesteuert wird. Er hat "No linter errors" für null Diagnostics und "Found N errors" für N Diagnostics implementiert, mit Styling passend zum bestehenden CSS.
Der Agent hat zwei Fälle in der Cursor-Desktop-App getestet: eine Datei mit mehreren Typfehlern und eine saubere Datei ohne Fehler. Die Videoaufzeichnung zeigt, wie der Agent verifiziert, dass die saubere Datei eine aufgeklappte Gruppe mit der Anzeige „No linter errors“ hat.
UI testen
Wir haben einen Cloud-Agent gestartet, um zu überprüfen, dass auf cursor.com/docs alles korrekt funktioniert. Er hat 45 Minuten damit verbracht, unsere Docs-Site vollständig durchzugehen. Der Agent lieferte eine Zusammenfassung aller Features, die er getestet hat, darunter die Sidebar, die obere Navigation, Suche, die Schaltfläche „Seite kopieren“, den Dialog „Feedback teilen“, das Inhaltsverzeichnis und das Umschalten des Themes.
Da Agents nun den Großteil der Implementierung übernehmen können, stellen wir fest, dass die Rolle von Entwicklerinnen und Entwicklern immer mehr darin besteht, die Richtung vorzugeben und zu entscheiden, was ausgeliefert wird.
Wie geht es weiter
Wir arbeiten auf eine Zukunft mit selbststeuernden Codebases hin, in der Agents PRs mergen, Rollouts steuern und Produktionsumgebungen überwachen. Wir werden uns von einer Welt, in der Entwickler Agents nutzen, um Diffs zu erstellen, hin zu einer bewegen, in der Agents getestete Features End-to-End ausliefern.
Um diesen Wandel vollständig zu realisieren, müssen wir das Tooling, die Modelle und die Interaktionsmuster verbessern. Kurzfristig konzentrieren wir uns darauf, die Arbeit über viele Agents hinweg zu koordinieren und Modelle zu bauen, die aus vergangenen Durchläufen lernen und mit zunehmender Erfahrung effektiver werden.
Lege auf cursor.com/onboard los, um zu sehen, wie der Agent sich selbst konfiguriert und eine Demo aufzeichnet. Oder erfahre mehr in den docs.