Wayfair가 Cursor로 ML 모델 비용을 90% 절감한 방법(두 번이나!)
Cursor가 실험 실행을 맡으면서 Wayfair는 수개월 걸리던 ML 조사를 며칠로 압축했습니다. 연구원 5명이 110개가 넘는 모델 변형을 테스트했고 태그 검증 모델 비용을 94% 절감했습니다.
Wayfair의 Applied Research 팀은 Cursor를 사용해 수개월이 걸리던 머신러닝과 응용 AI 조사를 며칠로 압축하고 있습니다. 2025년 말에는 연구원들이 최대 20개 이상의 에이전트를 병렬로 실행하고 있었습니다. 그 결과 5명으로 구성된 팀이 4일간의 실험 스프린트에서 모델 변형 110개를 테스트하고, 핵심 전자상거래 카탈로그 보강 워크플로우의 추론 비용을 94% 절감할 수 있었습니다. 2026년 3월에는 팀이 Cursor의 최신 모델로 같은 플레이북을 다시 적용해 비용을 추가로 90% 더 절감했습니다.
Cursor는 Wayfair의 ML 조사 방식 자체를 바꿔 놓았습니다. Wayfair의 연구원들은 가설을 세우고, 결과를 해석하고, 가장 유망한 아이디어를 다듬으며 모델 개선을 주도합니다. Cursor는 구현을 맡아 실험을 만들고, 이를 테스트 프레임워크에 연결하고, 결과를 측정합니다.
세계 최대 홈퍼니싱 카탈로그의 제품 속성 데이터 검증
Wayfair 카탈로그의 모든 제품은 소재, 치수, 색상 및 기타 속성을 설명하는 구조화된 "태그"로 정리되어 있습니다. 47,000개가 넘는 고유한 속성 태그가 수천만 개 제품의 검색, 필터링, 추천, 제품 배치, 광고를 뒷받침합니다.
Wayfair의 Applied AI 팀은 제품 페이지의 이미지, 설명, 고객 리뷰와 대조해 각 태그를 점검하는 검증 모델을 만들었습니다. 모델의 정확도는 높았지만, Wayfair의 방대한 제품 카탈로그 전반에 적용하기에는 비용이 너무 많이 들었습니다.
우리의 목표는 이 모델을 세계 최대 규모의 홈퍼니싱 카탈로그 중 하나 전반에 실행할 수 있을 만큼 비용 효율적으로 만드는 것이었습니다.
이 목표를 실현하기 위해 팀은 다양한 LLM, 입력 전처리 전략, 프롬프트, 출력 구조, eval 방법을 포함한 폭넓은 설계 공간을 탐색해야 했습니다. 수백 가지 조합을 수작업으로 구현했다면 몇 달이 걸렸을 것입니다.
대신 Wayfair는 Cursor를 사용해 실험 루프를 자동화하고 병렬화했습니다. 2025년 12월, 팀은 비용 절감 목표를 향해 나아가기 위해 4일간의 실험 스프린트를 진행했습니다. Cursor가 구현 레이어를 맡으면서, 연구원 5명은 실질적으로 서로 다른 110개의 모델 변형을 만들고 테스트할 수 있었습니다. 최종적으로 선정된 아키텍처는 모델 정밀도를 높이면서 추론 비용을 94% 절감했고, Wayfair의 태그 검증 기준선으로 프로덕션에 도입되었습니다.


조사에서 시간이 가장 오래 걸리는 부분은 각 실험을 손으로 만들고 점수를 매기는 일입니다. 우리는 그 루프를 자동화하고 Cursor가 각 실험을 구현하고 실행하도록 했기 때문에, 몇 달이 걸렸을 작업을 4일 안에 끝낼 수 있었습니다.
실험 실행을 Cursor에 위임하기
모델 변형을 만들기 전에 팀은 Cursor가 실험을 실행하고 측정하는 방식을 표준화했습니다. 모든 변형은 성능을 평가하기 위해 동일한 테스트 데이터셋과 동일한 평가 벤치마크에서 실행됐습니다. 테스트 및 평가 프레임워크가 Cursor의 자동화된 워크플로우로 자리 잡으면서, 연구원들은 모델 변경, 프롬프트 재작성, 출력 구조 재설계, 이미지 선택 방식 재검토 등 실험 설계 탐색에만 온전히 집중할 수 있었습니다.
"자유도는 많았습니다. 모델, 프롬프트, 출력 구조, 이미지 선택까지요. Cursor 자동화가 갖춰지자 저는 설계 공간을 탐색하는 데 집중할 수 있었습니다."라고 수석 머신러닝 사이언티스트 Guillermo Mosse는 말했습니다. "아이디어를 설명하면, 때로는 음성 모드로 5분 내내 말하기도 했고, 그러면 Cursor가 해당 변형을 띄우고 eval을 실행한 뒤 결과를 게시했습니다. 프레임워크는 비교 결과를 신뢰할 수 있게 해주는 데이터 샘플링, 평가, 지표 보고를 처리했습니다."
Cursor는 병목을 '이걸 만드는 데 얼마나 걸릴까?'에서 '다음으로 시험해 볼 만한 아이디어는 무엇일까?'로 바꿔 놓았습니다. 과학자가 집중해야 할 지점으로는 훨씬 더 낫죠.
이 덕분에 연구원들은 아이디어를 떠올린 뒤 30분도 안 돼 실제 실험에 들어갈 수 있었습니다.


연구원들은 대부분의 시간을 다음에 무엇을 시도할지 브레인스토밍하고, 결과를 검토하고, 어떤 아이디어를 한 번 더 시도해 볼 가치가 있는지 판단하는 데 썼습니다. Cursor는 각 변형을 작성하고 실행하며, 우리가 검토할 수 있도록 가장 유력한 후보를 추려 보여줬습니다.
2026년 3월, Wayfair는 또 한 번의 실험 스프린트를 진행했고, 이번에는 프로덕션에 적용된 12월 모델을 새로운 기준선으로 삼아 벤치마킹했습니다. 이제 프레임워크가 충분히 성숙해지면서, 태그 검증 경험이 전혀 없는 주니어 엔지니어들도 첫날부터 새로운 모델 변형을 배포하고 있었습니다. 연구원들은 140개가 넘는 새 실험을 진행했고, 최종 최적화를 위해 가장 유력한 후보군에 유전 알고리즘 탐색을 더했습니다. 그 결과 요금이 90% 더 절감되었습니다.


에이전트 우선 ML 조사를 위한 기반, Cursor
Wayfair가 실험을 진행하는 데 특히 중요했던 기능은 다음과 같습니다.
- 확장 가능한 에이전트 병렬화: 연구원들은 실험 스프린트 동안 20개 이상의 Cursor 에이전트를 병렬로 실행하곤 했습니다. Mosse는 "Cursor에서 여러 변형을 한 번에 실행하는 일은 간단하고 쉬웠습니다. 이 덕분에 4일간의 스프린트도 현실적으로 가능했습니다."라고 말했습니다.
- 크로스플랫폼 환경: 일부 연구원은 주로 Cursor 데스크톱 앱에서 작업했고, 다른 연구원은 Cursor CLI에서 작업했습니다. 데스크톱 앱을 사용하던 그룹이 직접 저수준 제어가 필요할 때는 Cursor에서 터미널이나 파일을 바로 열 수 있었습니다.
- 클라우드 Agent: 연구원들은 노트북 자리를 비워도 실험이 계속 실행되기를 원했습니다. Mosse는 "보통 노트북을 닫는 순간 실험이 중단됩니다. Cursor에서는 클라우드 Agent가 계속 실행되는 동안 출퇴근을 하거나, 회의에 들어가거나, 화이트보드에 아이디어를 정리할 수 있어, 사실상 24시간 내내 실험을 돌릴 수 있습니다."라고 말했습니다.
- 모든 모델에 대한 접근: 연구원들은 작업에 따라 서로 다른 모델을 사용했습니다. 최고의 모델들을 하나의 도구에서 모두 사용할 수 있었기 때문에 Wayfair는 손쉽게 반복 개선할 수 있었습니다.
수석 머신러닝 사이언스 매니저인 Nick Coleman은 다른 여러 에이전트를 사용해 본 뒤 Cursor를 사용하기 시작했습니다. 그는 "Cursor는 시작하기가 가장 쉬웠고, 최고의 모델도 모두 사용할 수 있습니다."라고 말했습니다. "git 브랜치 관리나 파일로 바로 들어가기처럼 제가 직접 제어하고 싶은 작업도 도구를 오갈 필요 없이 Cursor에서 바로 쉽게 할 수 있습니다."
Wayfair 전반으로 Cursor 확장하기
이제 Cursor는 카탈로그 보강을 이끄는 ML 팀을 훌쩍 넘어, Applied Research 조직 전반에서 널리 활용되고 있습니다. 연구자들은 ML 실험을 위한 스킬 내부 repo를 만들고 공유하며, 개발 속도를 더욱 끌어올리고 있습니다. "저는 Cursor에서 여러 개의 개방형 조사 프로젝트를 진행해 왔습니다. 제가 명세를 정의하고, 요금 가드레일을 설정하고, 시도해 볼 만한 아이디어를 넣습니다. 그러면 에이전트는 제가 필요에 따라 방향을 잡아주는 동안 며칠씩 실행됩니다."라고 Mosse는 말했습니다.
몇 달이 걸리던 탐색을 며칠로 압축하는 이 새로운 조사 방식은, 우리가 계속 밀고 나가고 싶은 방향입니다.
Wayfair 연구자들은 코딩 경험이 없는 파트너를 포함해, 기업 전반의 다른 이해관계자들도 에이전트를 사용하도록 독려하고 있습니다. "제가 드리고 싶은 조언은, 가능하다고 생각하는 한계를 넘어설 정도로 밀어붙여 보라는 것입니다."라고 Coleman은 말했습니다. "먼저 이루고 싶은 목표를 말해주고, 그다음에는 계속 한계를 넓혀 가세요." Wayfair의 작업에 대해 더 자세히 알아보려면 해당 연구 블로그를 읽어보세요.
Cursor를 사용해 ML 조사를 가속화하거나 팀 전반에서 실험을 확장하고 있다면, Cursor 평가판을 시작할 수 있도록 저희 팀에 문의하기 바랍니다.