Clientes

Cómo Wayfair redujo un 90% los costos de los modelos de ML (¡dos veces!) con Cursor

Con Cursor a cargo de la ejecución de los experimentos, Wayfair condensó meses de investigación de ML en días. Cinco investigadores probaron más de 110 variantes de modelos y redujeron en un 94% los costos del modelo de validación de etiquetas.

7 min de lectura

El equipo de Investigación Aplicada de Wayfair usa Cursor para condensar meses de investigación en aprendizaje automático e IA aplicada en cuestión de días. A finales de 2025, los investigadores ya ejecutaban más de 20 agentes en paralelo. Esto permitió que un equipo de cinco personas probara 110 variantes de modelos en un sprint de experimentación de cuatro días y redujera en un 94% los costos de inferencia de un flujo de trabajo clave de enriquecimiento del catálogo de comercio electrónico. En marzo de 2026, el equipo repitió la misma estrategia con los modelos más recientes de Cursor y redujo los costos otro 90%.

Cursor ha cambiado la forma en que se lleva a cabo la investigación de ML en Wayfair. Los investigadores de Wayfair impulsan las mejoras de los modelos: formulan hipótesis, interpretan resultados y refinan las ideas más sólidas. Cursor se encarga de la implementación: crea experimentos, los integra en el framework de pruebas y mide los resultados.

Validación de datos de atributos de productos frente al catálogo de artículos para el hogar más grande del mundo

Cada producto del catálogo de Wayfair se describe mediante "etiquetas" estructuradas que indican materiales, dimensiones, color y otros atributos. Más de 47.000 etiquetas de atributos distintas impulsan la búsqueda, el filtrado, las recomendaciones, la ubicación de productos y la publicidad para decenas de millones de productos.

El equipo de IA aplicada de Wayfair creó un modelo de validación que contrasta cada etiqueta con las imágenes, descripciones y reseñas de clientes en la página del producto. El modelo era preciso, pero demasiado costoso de ejecutar a gran escala en el enorme catálogo de productos de Wayfair.

Nuestro objetivo era hacer que el modelo fuera lo bastante rentable como para ejecutarlo en uno de los catálogos de artículos para el hogar más grandes del mundo.

Guillermo Mosse
Científico sénior de aprendizaje automático, Wayfair

Para lograr este objetivo, el equipo necesitaba explorar un amplio espacio de diseño que incluía distintos LLM, estrategias de preprocesamiento de entrada, prompts, estructuras de salida y métodos de evaluación. Implementar manualmente cientos de combinaciones habría llevado meses.

En cambio, Wayfair usó Cursor para automatizar y paralelizar el ciclo de experimentación. En diciembre de 2025, el equipo llevó a cabo un sprint de experimentación de cuatro días para avanzar hacia sus objetivos de reducción de costos. Con Cursor encargándose de la capa de implementación, cinco investigadores crearon y probaron 110 variaciones de modelo realmente distintas. La arquitectura ganadora redujo los costos de inferencia en un 94 % a la vez que mejoró la precisión del modelo, y pasó a producción como la referencia de validación de etiquetas de Wayfair.

Investigadores de Wayfair validando datos de atributos de productos con CursorInvestigadores de Wayfair validando datos de atributos de productos con Cursor

La parte lenta de la investigación es crear y evaluar manualmente cada experimento. Automatizamos ese ciclo y dejamos que Cursor implementara y ejecutara cada experimento, así que lo que habría llevado meses de trabajo cupo en cuatro días.

Guillermo Mosse
Científico sénior de aprendizaje automático, Wayfair

Delegar la ejecución de experimentos a Cursor

Antes de crear variantes del modelo, el equipo estandarizó cómo Cursor ejecutaría y mediría los experimentos: cada variante se ejecutaba sobre el mismo conjunto de datos de prueba y el mismo benchmark de evaluación para medir el rendimiento. Con el marco de pruebas y evaluación establecido como un flujo de trabajo automatizado en Cursor, los investigadores podían centrarse por completo en explorar el diseño de los experimentos: cambiar modelos, reescribir prompts, reestructurar resultados o replantearse cómo se seleccionaban las imágenes.

"Había muchos grados de libertad: modelos, prompts, estructura del resultado, selección de imágenes. Con las Automatizaciones de Cursor ya implementadas, me centré en explorar el espacio de diseño", dijo Guillermo Mosse, científico sénior de aprendizaje automático. "Describía una idea, a veces usando el modo de voz para hablar durante 5 minutos seguidos, y Cursor ponía en marcha la variante, ejecutaba la eval y publicaba los resultados. El marco se encargaba del muestreo de datos, la evaluación y el reporte de métricas que hacían fiables las comparaciones."

Cursor cambió el cuello de botella de '¿Cuánto tiempo llevará crear esto?' a '¿Cuál es la siguiente idea que vale la pena probar?' Ese es un uso mucho mejor de la atención de un científico.

Omer Lang
Científico sénior de aprendizaje automático, Wayfair

Esto permitió a los investigadores pasar de una idea a un experimento en marcha en menos de 30 minutos.

Investigadores de Wayfair delegando la ejecución de experimentos a CursorInvestigadores de Wayfair delegando la ejecución de experimentos a Cursor

Los investigadores dedicaban la mayor parte de su tiempo a pensar qué probar después, revisar resultados y decidir qué ideas merecían otra ronda. Cursor escribía y ejecutaba cada variante, destacando las más sólidas para que pudiéramos revisarlas.

Guillermo Mosse
Científico sénior de aprendizaje automático, Wayfair

En marzo de 2026, Wayfair llevó a cabo otro sprint de experimentación, esta vez haciendo benchmarking frente al modelo de diciembre ya puesto en producción como nueva referencia. Con el marco ya maduro, ingenieros júnior sin experiencia previa en validación de etiquetas lanzaban variantes novedosas del modelo desde el primer día. Los investigadores realizaron más de 140 experimentos nuevos y añadieron búsquedas con algoritmos genéticos sobre los candidatos más sólidos para la optimización final. El resultado: otra reducción del 90 % en costes.

Resultados del sprint de experimentación de marzo de WayfairResultados del sprint de experimentación de marzo de Wayfair

Cursor como base para la investigación en ML centrada en agentes

Algunas capacidades fueron clave en la forma en que Wayfair llevó a cabo sus experimentos:

  • Paralelización de agentes a gran escala: Durante el sprint de experimentación, los investigadores solían ejecutar más de 20 agentes de Cursor en paralelo. "Ejecutar muchas variantes a la vez en Cursor fue simple y fácil. Esto hizo viable nuestro sprint de cuatro días", dijo Mosse.
  • Interfaces multiplataforma: Algunos investigadores trabajaban principalmente en la aplicación de escritorio de Cursor, mientras que otros lo hacían en Cursor CLI. Cuando el grupo que usaba la versión de escritorio necesitaba control directo y de bajo nivel, podía abrir un terminal o archivos directamente en Cursor.
  • Cloud agents: Los investigadores querían que los experimentos siguieran ejecutándose cuando se alejaban de sus portátiles. "Normalmente, cerrar el portátil interrumpe el experimento. Cursor me permite desplazarme, entrar en reuniones o hacer lluvia de ideas en una pizarra mientras sus cloud agents siguen ejecutándose, lo que nos permite realizar experimentos 24/7", dijo Mosse.
  • Acceso a todos los modelos: Los investigadores recurrían a distintos modelos para distintas tareas. Tener acceso a todos los mejores modelos en una sola herramienta facilitó la iteración en Wayfair.

Nick Coleman, gerente sénior de ciencia de aprendizaje automático, empezó a usar Cursor después de probar varios otros agentes. "Cursor fue la herramienta más fácil para empezar, y tienes acceso a todos los mejores modelos", dijo. "Las cosas que quiero controlar manualmente, como gestionar ramas de git o abrir archivos, se pueden hacer fácilmente directamente en Cursor sin tener que ir cambiando entre herramientas."

Escalar Cursor en Wayfair

Cursor ahora está ampliamente adoptado en toda la organización de Investigación Aplicada, mucho más allá del equipo de ML que impulsa el enriquecimiento del catálogo. Los investigadores están creando e intercambiando repositorios internos de Skills para la experimentación en ML, lo que acelera aún más el ritmo de desarrollo. "He estado gestionando varios proyectos de investigación de alcance abierto en Cursor. Defino la especificación, establezco los límites de gasto y aporto las ideas que vale la pena probar. Los agentes trabajan durante días mientras yo los voy guiando según sea necesario", afirmó Mosse.

Esta nueva forma de investigar, que comprime meses de exploración en días, es algo que queremos seguir impulsando.

Guillermo Mosse
Científico sénior de aprendizaje automático, Wayfair

Los investigadores de Wayfair también están animando a otras partes interesadas de toda la compañía a usar agentes, incluidas personas sin experiencia en programación. "Mi consejo es llevarlo más allá de los límites de lo que crees posible", afirmó Coleman. "Empieza por decirle lo que quieres lograr y luego sigue superando ese límite." Puedes leer más sobre el trabajo de Wayfair en su blog de investigación.


Si usas Cursor para acelerar la investigación en ML o escalar la experimentación en tu equipo, comunícate con nuestro equipo para comenzar una prueba de Cursor.

Archivado en: Clientes

Autor: Cursor Team