WayfairがCursorでMLモデルコストを90%削減(しかも2度)
実験実行をCursorに任せることで、Wayfairは数か月分のML研究を数日に短縮しました。5人の研究者が110以上のモデルバリアントをテストし、タグ検証モデルのコストを94%削減しました。
WayfairのApplied Researchチームは、Cursorを使って機械学習と応用AIの研究に要する数か月を数日に短縮しています。2025年末までに、研究者たちは最大20以上のエージェントを並行実行していました。これにより、5人のチームが4日間の実験スプリントで110種類のモデルバリアントをテストし、中核となるeコマースのカタログ拡充ワークフローにおける推論コストを94%削減できました。2026年3月には、チームはCursorの最新モデルで同じ手法を再び実践し、コストをさらに90%削減しました。
Cursorは、WayfairにおけるML研究の進め方を変えました。モデル改善を推進するのはWayfairの研究者たちです。彼らは仮説を立て、結果を解釈し、有望なアイデアをさらに磨き込みます。実装面はCursorが担い、実験を構築し、テストフレームワークに組み込み、結果を測定します。
世界最大のホームグッズカタログで商品属性データを検証する
Wayfairのカタログに掲載されているすべての商品には、素材、寸法、色、そのほかの属性を表す構造化された「タグ」が付与されています。47,000種類を超える属性タグが、数千万点にのぼる商品の検索、絞り込み、レコメンデーション、商品表示、広告配信を支えています。
WayfairのApplied AIチームは、商品ページ上の画像、説明文、カスタマーレビューと照合して各タグを監査する検証モデルを構築しました。このモデルは高精度でしたが、Wayfairの膨大な商品カタログの広範囲にわたって実行するにはコストが高すぎました。
私たちの目標は、このモデルを世界最大級のホームグッズカタログの1つ全体で実行できるほど費用対効果の高いものにすることでした。
この目標を実現するには、さまざまなLLM、入力の前処理戦略、プロンプト、出力構造、評価手法を含む幅広い設計の選択肢を検討する必要がありました。何百もの組み合わせを手作業で実装していたら、何か月もかかっていたでしょう。
そこでWayfairは、実験ループを自動化・並列化するためにCursorを使いました。2025年12月、チームはコスト削減目標に向けて前進するため、4日間の実験スプリントを実施しました。Cursorが実装面を担ったことで、5人の研究者が中身の異なる110種類のモデルバリエーションを構築してテストできました。最終的に選ばれたアーキテクチャは、モデル精度を向上させながら推論コストを94%削減し、Wayfairのタグ検証のベースラインとして本番導入されました。


研究で時間がかかるのは、各実験を手作業で構築して評価することです。私たちはそのループを自動化し、Cursorに各実験の実装と実行を任せたので、本来なら何か月もかかっていた作業を4日間に収めることができました。
実験の実行をCursorに委任する
モデルバリアントを構築する前に、チームはCursorによる実験の実行方法と測定方法を標準化しました。すべてのバリアントを同じテストデータセット、同じ評価ベンチマークで実行し、パフォーマンスを採点するようにしたのです。テストと評価のフレームワークをCursor内の自動化ワークフローとして確立したことで、研究者は実験設計の検討そのものに集中できるようになりました。モデルの変更、プロンプトの書き換え、出力構造の見直し、画像選択方法の再考に専念できたのです。
「ここでは、モデル、プロンプト、出力構造、画像選択など、検討すべき自由度が非常に多くありました。Cursor Automationsを導入したことで、私は設計空間の探索に集中できました」と、シニア機械学習サイエンティストのGuillermo Mosseは述べています。「アイデアを説明すると、時には音声モードで5分間話し続けることもありましたが、その間にCursorがバリアントを立ち上げ、evalを実行し、結果を公開してくれました。比較の信頼性を支えるデータのサンプリング、評価、メトリクスのレポートは、すべてフレームワークが処理してくれました。」
Cursorはボトルネックを『これを構築するのにどれくらい時間がかかるか?』から『次に試す価値があるアイデアは何か?』へと変えました。科学者にとって、注意を向ける先としてはそのほうがはるかに望ましいです。
これにより、研究者はアイデアを実際に動く実験に30分足らずで変えられるようになりました。


研究者は、次に何を試すかを考え、結果をレビューし、どのアイデアをさらに掘り下げる価値があるかを判断することに大半の時間を使っていました。Cursorは各バリアントを作成して実行し、私たちがレビューすべき有力なものを提示してくれました。
2026年3月、Wayfairは再び実験スプリントを実施しました。今回は、本番導入済みの12月モデルを新たなベースラインとしてベンチマークを行いました。フレームワークが成熟したことで、タグ検証の経験がないジュニアエンジニアでも、初日から新しいモデルバリアントをリリースできるようになりました。研究者たちは140件を超える新たな実験を実施し、最終的な最適化に向けて、有力候補の上に遺伝的アルゴリズム探索を重ねました。その結果、さらに90%のコスト削減を達成しました。


エージェントファーストのML研究の基盤としての Cursor
Wayfair が実験を進めるうえで、特に重要だった機能は次のとおりです。
- 大規模なエージェントの並列実行: 実験スプリントでは、研究者が 20 以上の Cursor エージェントを並行して動かすことも珍しくありませんでした。「Cursor で多数のバリアントを同時に実行するのはシンプルで簡単でした。これによって、4 日間のスプリントが現実的なものになりました」と Mosse は述べています。
- クロスプラットフォームの利用環境: Cursor デスクトップアプリを主に使う研究者もいれば、Cursor CLI を使う研究者もいました。デスクトップ中心のグループでも、より低レベルな制御が必要なときは、Cursor からターミナルやファイルを直接開けました。
- クラウドエージェント: 研究者はノートPCから離れている間も実験を走らせ続けたいと考えていました。「通常、ノートPCを閉じると実験が中断されます。Cursor があれば、クラウドエージェントを動かし続けたまま通勤したり、会議に出たり、ホワイトボードでアイデアを整理したりできます。つまり、実験を 24 時間 365 日回せるようになるのです」と Mosse は述べています。
- あらゆるモデルへのアクセス: 研究者はタスクごとに異なるモデルを使い分けていました。1 つのツールから最適なモデルをすべて利用できることで、Wayfair は素早く反復できました。
シニア機械学習サイエンスマネージャーの Nick Coleman は、いくつかの別のエージェントを試したあとに Cursor を使い始めました。「Cursor は使い始めるのがいちばん簡単で、しかも最適なモデルをすべて使えます」と彼は述べています。「git ブランチの管理やファイルへのジャンプなど、自分で操作したいことも、ツールを行き来せずに Cursor から直接簡単に行えます。」
Wayfair全体で広がる Cursor
Cursor は今や、カタログ拡充を担う ML チームにとどまらず、Applied Research 組織全体で広く活用されています。研究者たちは、ML 実験向けのスキルをまとめた社内 repo を作成・共有し、開発スピードをさらに加速させています。「私は Cursor で、探索的な研究プロジェクトをいくつも進めています。仕様を定義し、コストのガードレールを設定し、試す価値のあるアイデアを投入します。必要に応じて私がかじ取りするだけで、エージェントは何日間も動き続けます」と Mosse は述べています。
数か月かかる探索を数日に圧縮できる、この新しい研究の進め方を、私たちはさらに推し進めていきたいと考えています。
Wayfair の研究者たちは、コーディング経験のないパートナーを含め、社内のさまざまな関係者にもエージェントの活用を勧めています。「私からのアドバイスは、自分が可能だと思う限界を超えて使ってみることです」と Coleman は述べています。「まずは達成したいことを伝え、そこからさらに限界を押し広げ続けてください。」Wayfair の取り組みについては、研究ブログで詳しく読むことができます。
Cursor を使って ML 研究を加速したり、チーム全体で実験規模を広げたりしているなら、Cursor のトライアルを始めるために、私たちのチームにお問い合わせください。