Ausweitung unserer Forschungsvorschau für lang laufende Agents

von Cursor Team in Produkt

Die Forschungsvorschau für lang laufende Agents von Cursor ist jetzt unter cursor.com/agents für alle Ultra-, Teams- und Enterprise-Nutzer verfügbar.

Der lang laufende Agent ist das Ergebnis unserer Forschung zu Agents, die autonom an ambitionierteren Projekten arbeiten – einschließlich der Arbeit, die wir letzten Monat zu wie Cursor einen Webbrowser gebaut hat veröffentlicht haben.

Während dieses Experiments sahen wir, dass Frontier-Modelle bei Aufgaben mit langem Zeithorizont auf vorhersehbare Weise scheitern. Diese Einschränkungen haben wir behoben, indem wir ein spezielles Steuerungs-Framework entwickelt haben, das Agents in die Lage versetzt, schwierigere Arbeiten zu übernehmen und sie bis zum Abschluss durchzuführen.

Letzte Woche haben wir eine Version dieses Frameworks im Rahmen einer Forschungsvorschau veröffentlicht. Die Ergebnisse zeigen, dass lang laufende Agents deutlich größere PRs mit Merge-Raten erzeugten, die mit denen anderer Agents vergleichbar sind.

Lang laufende Agents erzeugten deutlich größere PRs mit vergleichbaren Merge-RatenLang laufende Agents erzeugten deutlich größere PRs mit vergleichbaren Merge-Raten

In Gesprächen mit Teilnehmern unserer Forschungsvorschau haben wir gehört, dass lang laufende Agents erfolgreich eine Reihe von Aufgaben abgeschlossen haben, die zuvor außerhalb der Reichweite von Agents lagen. Einige Beispieldurchläufe aus der Forschungsvorschau umfassen:

  • Aufbau einer völlig neuen Chat-Plattform, integriert in ein bestehendes Open-Source-Tool (Laufzeit: 36 Stunden)
  • Implementierung einer Mobile-App auf Basis einer bestehenden Web-App (Laufzeit: 30 Stunden)
  • Refactoring eines Authentifizierungs- und RBAC-Systems (Laufzeit: 25 Stunden)

Modelle leistungsfähiger machen

Das erfolgreiche Abschließen schwieriger Aufgaben erfordert Spitzen‑Intelligenz und das richtige Steuerungskonzept. Indem wir mit jedem Frontier‑Modell arbeiten und für jedes ein eigenes „Harness“ entwickeln, sind wir in einer einzigartigen Position, das bestmögliche Gerüst zu bauen, das die Stärken verschiedener Modelle optimal ausnutzt. Wir haben festgestellt, dass es ein paar allgemeine Prinzipien gibt, die uns zu besserer Performance verhelfen.

Planung vor Ausführung

Wenn man direkt mit einem Modell iteriert, ermöglichen enge Prompt‑Response‑Schleifen, den Agent zu überwachen und ihn bei Bedarf wieder auf Kurs zu bringen. Wenn der Agent selbstständig an einer größeren Aufgabe arbeitet, kann eine leicht falsche Annahme am Ende zu einer völlig falschen Lösung führen.

Lang laufende Agents in Cursor schlagen zunächst einen Plan vor und warten auf Freigabe, anstatt sofort mit der Ausführung zu beginnen – in der Erkenntnis, dass frühzeitige Abstimmung den Bedarf an Nacharbeiten reduziert.

Konsequente Aufgabenerledigung

Frontier‑Modelle können großartigen Code schreiben, vergessen aber oft das große Ganze ihrer Aufgabe, verlieren den Überblick über das, was sie tun, oder hören bei teilweiser Fertigstellung auf.

Lang laufende Agents verwenden einen Plan und mehrere verschiedene Agents, die gegenseitig ihre Arbeit überprüfen, um größere, komplexere Aufgaben zuverlässig bis zum Abschluss zu bringen.

Bisherige Erkenntnisse

Die ersten Teilnehmer der Research Preview nutzten lang laufende Agents, um große Features zu implementieren, komplexe Systeme zu refaktorisieren, schwierige Bugs zu beheben, die Performance grundlegend zu verbessern und Tests mit hoher Abdeckung zu erstellen.

Ich habe zwei grundlegende Architekturüberarbeitungen ausgeliefert. Es ist ein unglaubliches Tool für Arbeit nach dem Motto „Ich weiß nicht, ob das überhaupt möglich ist, aber ich will es herausfinden“. Ich kann fünf parallel laufen lassen – für alles, von der Erstellung von Window-Managern für macOS bis hin dazu, CEF in Tauri einzubauen.

Theo Browne
CEO, T3 Chat

Agents liefen häufig länger als einen Tag und produzierten PRs, die mit minimalem Nachbearbeitungsaufwand gemerged wurden. Nutzer konnten weggehen, sich auf andere Arbeit konzentrieren, ihren Laptop zuklappen und zu funktionierenden Lösungen zurückkehren.

Ich hatte für dieses Projekt ein ganzes Quartal veranschlagt. Mit den lang laufenden Agents von Cursor hat sich dieser Zeitplan auf nur ein paar Tage verkürzt. Und ich konnte zwei oder drei zusätzliche Projekte erledigen. Ich kann eine 52-stündige Aufgabe anstoßen, die ich nicht beaufsichtigen muss, und komme zu einem großen PR mit 151k Zeilen Code zurück.

Zack Jackson
Infra-Architekt, Rspack

Im Vergleich zu synchronen Agents waren lang laufende Agents in ihrem Ansatz gründlicher und schrieben deutlich produktionsreiferen Code.

Der magische Teil des neuen Test-Harness besteht darin, dass dasselbe Modell etwas Produktionsreifes erstellen kann. Ich habe denselben Bugfix-Prompt lokal im Vergleich zu einem lang laufenden Agent getestet, beide mit Codex 5.3. Der lokale Agent hat das Problem ziemlich schnell behoben, aber der lang laufende ist noch weiter gegangen, um Edge Cases zu finden, ähnliche Vorkommen zu beheben und Tests mit hoher Abdeckung zu schreiben.

Tejas Haveri
CTO, DevAccel-Labs

Verwendung von langlaufenden Agents in Cursor

Im letzten Monat haben wir intern die Grenzen von langlaufenden Agents getestet. Wir haben sie sowohl für Experimente genutzt, um zu sehen, wie weit wir sie treiben können, als auch für produktive Arbeit an Cursor selbst. Hier sind ein paar Aufgaben, die wir langlaufenden Agents gegeben haben und die wir inzwischen gemergt haben.

Optimierung eines Video-Renderers

Wir haben einen Agent gebeten, einen Video-Renderer zu optimieren, dessen Performance die Bereitstellung ausbremste. Er führte eine vollständige Migration zu Rust durch und implementierte benutzerdefinierte Kernel, wobei er den identischen visuellen Output allein auf Basis der ursprünglichen Logik reproduzierte.

Richtliniengesteuerter Netzwerkzugriff für sandboxed Code

Wir benötigten JSON-gesteuerte Netzwerk-Richtlinien und einen lokalen HTTP-Proxy für sandboxed Prozesse. Der Proxy musste protokollübergreifend korrekt arbeiten, Richtlinien konsistent durchsetzen und sicher fehlschlagen, ohne blockierten Traffic zuzulassen. Der langlaufende Agent erstellte eine zehntausendzeilige PR, die bei Ausführung einer großen Test-Suite nur sehr wenige Probleme aufwies. Die Nacharbeiten bestanden hauptsächlich aus Änderungen, die wir in unserer ursprünglichen Anfrage nicht spezifiziert hatten.

Sudo-Unterstützung in Cursor CLI

Einige Aufgaben bringen CLI-Agents zum Absturz, sobald sie auf sudo treffen, insbesondere Aufgaben im Bereich Systemadministration oder Ops. Wir haben einen langlaufenden Agent gebeten, eine sichere sudo-Passwortabfrage zu implementieren, was das Zusammenspiel mehrerer Subsysteme und das Verständnis von Unix-Authentifizierungsabläufen erforderte. Er lieferte eine funktionierende Implementierung, die nun in Cursor CLI verwendet wird.

Auf dem Weg zu selbststeuernden Codebasen

Langlaufende Agents in Cursor sind ein früher Meilenstein auf dem Weg zu selbststeuernden Codebasen, bei denen Agents mehr Arbeit mit weniger menschlichem Eingreifen übernehmen können. Es ist jetzt möglich, größere Aufgaben zu delegieren und nach Stunden oder Tagen fertige Lösungen vorzufinden.

Wir arbeiten daran, die Zusammenarbeit zwischen langlaufenden Agents zu verbessern, sodass sie größere Projekte in parallele Workstreams aufteilen und noch ambitioniertere Projekte mit weniger menschlichem Eingreifen übernehmen können.

Wir entwickeln außerdem neue Tools, um das Volumen an Code zu bewältigen, das inzwischen generiert wird. Da die Kosten für Codegenerierung weiter sinken, brauchen wir neue Ansätze, um diesen Code sicher in Produktion zu bringen.

Probiere langlaufende Agents noch heute unter cursor.com/agents aus.

Kategorie: Produkt

Autor: Cursor Team

Ausweitung unserer Forschungsvorschau für lang laufende Agents · Cursor