Kunden

Wie Wayfair mit Cursor die Kosten für ML-Modelle um 90 % senkte (und das gleich zweimal!)

Mit Cursor für die Durchführung von Experimenten verkürzte Wayfair monatelange ML-Forschung auf wenige Tage. Fünf Forschende testeten über 110 Modellvarianten und senkten die Kosten des Tag-Validierungsmodells um 94 %.

6 Min. Lesezeit

Das Applied Research-Team von Wayfair nutzt Cursor, um monatelange Machine-Learning- und angewandte KI-Forschung auf wenige Tage zu verkürzen. Gegen Ende 2025 führten Forschende bereits mehr als 20 Agenten parallel aus. So konnte ein fünfköpfiges Team in einem viertägigen Experimentier-Sprint 110 unterschiedliche Modellvarianten testen und die Inferenzkosten für einen zentralen Workflow zur Anreicherung des E-Commerce-Katalogs um 94 % senken. Im März 2026 wiederholte das Team denselben Ansatz mit den neuesten Modellen in Cursor und senkte die Kosten noch einmal um 90 %.

Cursor hat die ML-Forschung bei Wayfair grundlegend verändert. Die Forschenden von Wayfair treiben die Verbesserungen an den Modellen voran: Sie formulieren Hypothesen, interpretieren Ergebnisse und entwickeln die vielversprechendsten Ideen weiter. Cursor übernimmt die Umsetzung: Es erstellt Experimente, bindet sie in das Test-Framework ein und misst die Ergebnisse.

Validierung von Produktattributdaten anhand des weltweit größten Katalogs für Wohnartikel

Jedes Produkt im Katalog von Wayfair wird durch strukturierte „Tags“ beschrieben, die Materialien, Abmessungen, Farben und andere Attribute erfassen. Mehr als 47.000 unterschiedliche Attribut-Tags bilden die Grundlage für Suche, Filterung, Empfehlungen, Produktplatzierung und Werbung bei zig Millionen Produkten.

Das Applied-AI-Team von Wayfair entwickelte ein Validierungsmodell, das jeden Tag anhand von Bildern, Beschreibungen und Kundenbewertungen auf der Produktseite prüft. Das Modell war präzise, aber zu teuer, um es in großem Umfang auf Wayfairs riesigen Produktkatalog anzuwenden.

Unser Ziel war es, das Modell kosteneffizient genug zu machen, um es auf einen der weltweit größten Kataloge für Wohnartikel anzuwenden.

Guillermo Mosse
Senior Machine Learning Scientist, Wayfair

Um dieses Ziel zu erreichen, musste das Team einen großen Designraum erkunden, einschließlich verschiedener LLMs, Strategien zur Vorverarbeitung von Eingaben, Prompts, Ausgabestrukturen und Evaluierungsmethoden. Hunderte von Kombinationen manuell zu implementieren, hätte Monate gedauert.

Stattdessen nutzte Wayfair Cursor, um den Experimentierzyklus zu automatisieren und zu parallelisieren. Im Dezember 2025 führte das Team einen viertägigen Experimentier-Sprint durch, um bei seinen Zielen zur Kostensenkung voranzukommen. Da Cursor die Implementierungsebene übernahm, konnten fünf Forschende 110 substanziell unterschiedliche Modellvarianten erstellen und testen. Die beste Architektur senkte die Inferenzkosten um 94 % und verbesserte gleichzeitig die Modellpräzision; sie wurde als neue Baseline für die Tag-Validierung bei Wayfair in Produktion genommen.

Wayfair-Forschende validieren Produktattributdaten mit CursorWayfair-Forschende validieren Produktattributdaten mit Cursor

Der zeitaufwendige Teil der Forschung ist, jedes Experiment von Hand zu erstellen und auszuwerten. Wir haben diesen Zyklus automatisiert und Cursor jedes Experiment implementieren und ausführen lassen, sodass aus Monaten an Arbeit vier Tage wurden.

Guillermo Mosse
Senior Machine Learning Scientist, Wayfair

Experimentausführung an Cursor delegieren

Bevor das Team Modellvarianten erstellte, legte es einheitlich fest, wie Cursor Experimente ausführen und messen sollte: Jede Variante lief auf demselben Testdatensatz und demselben Evaluierungs-Benchmark, um die Leistung zu bewerten. Nachdem das Test- und Evaluierungs-Framework als automatisierter Workflow in Cursor fest verankert war, konnten sich die Forschenden ganz darauf konzentrieren, das Experimentdesign auszuloten: Modelle zu ändern, Prompts umzuschreiben, Outputs neu zu strukturieren oder die Auswahl der Bilder zu überdenken.

„Es gab viele Stellschrauben: Modelle, Prompts, Ausgabestruktur, Bildauswahl. Mit den Cursor-Automatisierungen konnte ich mich ganz darauf konzentrieren, den Designraum auszuloten“, sagte Guillermo Mosse, Senior Machine Learning Scientist. „Ich beschrieb eine Idee, manchmal einfach im Sprachmodus fünf Minuten am Stück, und Cursor setzte die Variante auf, führte die Eval aus und veröffentlichte die Ergebnisse. Das Framework übernahm das Daten-Sampling, die Evaluierung und das Metrik-Reporting, sodass die Vergleiche verlässlich waren.“

Cursor hat den Engpass von „Wie lange dauert es, das zu bauen?“ zu „Welche Idee ist als Nächstes einen Test wert?“ verschoben. Das ist eine deutlich bessere Art, die Aufmerksamkeit eines Wissenschaftlers einzusetzen.

Omer Lang
Senior Machine Learning Scientist, Wayfair

Dadurch konnten Forschende in weniger als 30 Minuten von der Idee zu einem laufenden Experiment gelangen.

Wayfair-Forschende delegieren die Experimentausführung an CursorWayfair-Forschende delegieren die Experimentausführung an Cursor

Die Forschenden verbrachten die meiste Zeit damit, zu überlegen, was sie als Nächstes ausprobieren sollten, Ergebnisse zu prüfen und zu entscheiden, welche Ideen einen weiteren Durchlauf wert waren. Cursor schrieb und führte jede Variante aus und hob die stärksten für unser Review hervor.

Guillermo Mosse
Senior Machine Learning Scientist, Wayfair

Im März 2026 führte Wayfair einen weiteren Experimentier-Sprint durch und benchmarkte diesmal gegen das im Dezember produktiv gesetzte Modell als neue Baseline. Da das Framework inzwischen ausgereift war, lieferten Junior-Ingenieur:innen ohne vorherige Erfahrung mit Tag-Validierung schon am ersten Tag neue Modellvarianten aus. Die Forschenden führten mehr als 140 neue Experimente durch und ließen auf die stärksten Kandidaten zusätzlich Suchen mit genetischen Algorithmen zur finalen Optimierung laufen. Das Ergebnis: eine weitere Kostenreduktion um 90 %.

Ergebnisse von Wayfairs Experimentier-Sprint im MärzErgebnisse von Wayfairs Experimentier-Sprint im März

Cursor als Grundlage für agentenorientierte ML-Forschung

Einige Funktionen waren besonders wichtig dafür, wie Wayfair Experimente durchführte:

  • Skalierte Parallelisierung von Agenten: Während des Experimentier-Sprints ließen Forschende oft mehr als 20 Cursor-Agenten parallel laufen. „Viele Varianten gleichzeitig in Cursor auszuführen, war unkompliziert – und genau das machte einen viertägigen Sprint realistisch“, sagte Mosse.
  • Plattformübergreifende Oberflächen: Einige Forschende arbeiteten hauptsächlich in der Cursor-Desktop-App, andere mit der Cursor CLI. Wenn die Desktop-Gruppe direkte Kontrolle auf niedriger Ebene brauchte, konnte sie ein Terminal öffnen oder Dateien direkt in Cursor aufrufen.
  • Cloud-Agenten: Forschende wollten, dass Experimente weiterlaufen, auch wenn sie sich von ihren Laptops entfernten. „Normalerweise wird das Experiment unterbrochen, sobald man den Laptop zuklappt. Cursor ermöglicht es mir, zu pendeln, an Meetings teilzunehmen oder Ideen am Whiteboard zu skizzieren, während die Cloud-Agenten weiterlaufen. So können wir praktisch rund um die Uhr Experimente ausführen“, sagte Mosse.
  • Zugriff auf alle Modelle: Forschende nutzten je nach Aufgabe unterschiedliche Modelle. Der Zugriff auf all die besten Modelle in einem Tool machte es für Wayfair einfach, schnell zu iterieren.

Nick Coleman, ein Senior Machine Learning Science Manager, begann Cursor zu nutzen, nachdem er mehrere andere Agenten ausprobiert hatte. „Mit Cursor ließ sich am einfachsten loslegen, und man hat Zugriff auf all die besten Modelle“, sagte er. „Die Dinge, die ich manuell steuern möchte, etwa Git-Branches zu verwalten oder in Dateien zu springen, sind direkt in Cursor leicht zugänglich, ohne zwischen Tools wechseln zu müssen.“

Cursor bei Wayfair skalieren

Cursor ist inzwischen in der gesamten Applied Research-Organisation fest etabliert, weit über das ML-Team hinaus, das die Kataloganreicherung vorantreibt. Forschende bauen interne Repos mit Skills für ML-Experimente auf und tauschen sie aus, was das Entwicklungstempo zusätzlich erhöht. „Ich habe mehrere ergebnisoffene Forschungsprojekte in Cursor betreut. Ich definiere die Spezifikation, lege die Kostenleitplanken fest und bringe die Ideen ein, die es wert sind, ausprobiert zu werden. Die Agenten laufen tagelang, während ich bei Bedarf nachsteuere“, sagte Mosse.

Diese neue Art der Forschung, bei der sich Monate der Exploration auf wenige Tage verdichten, wollen wir weiter vorantreiben.

Guillermo Mosse
Senior Machine Learning Scientist, Wayfair

Die Forschenden bei Wayfair ermutigen auch andere Stakeholder im gesamten Unternehmen, Agenten zu nutzen, einschließlich Partnern ohne Programmiererfahrung. „Mein Rat ist, es über die Grenzen dessen hinauszutreiben, was du für möglich hältst“, sagte Coleman. „Fang damit an, ihm zu sagen, was du erreichen willst, und verschieb diese Grenze dann immer weiter.“ Mehr über Wayfairs Arbeit kannst du in ihrem Research-Blog lesen.


Wenn du Cursor nutzt, um ML-Forschung zu beschleunigen oder Experimente in deinem Team zu skalieren, kontaktiere bitte unser Team, um eine Cursor-Testversion zu starten.

Abgelegt unter: Kunden

Autor: Cursor Team