Wayfair 如何借助 Cursor 将 ML 模型成本降低 90%(而且做到了两次!)
在 Cursor 负责执行实验的情况下,Wayfair 将原本需要数月的 ML 研究压缩到了几天内。5 名研究人员测试了 110 多种模型变体,并将标签验证模型的成本降低了 94%。
Wayfair 的应用研究团队使用 Cursor,将原本需要数月的机器学习和 AI 应用研究压缩到了几天内。到 2025 年底,研究人员最多可并行运行 20 多个智能体。这让一个五人团队能够在为期四天的实验冲刺中测试 110 种模型变体,并将一项核心电商商品目录丰富化工作流的推理成本降低 94%。在 2026 年 3 月,团队又借助 Cursor 中的最新模型,沿用同样的方法,将成本再降低了 90%。
Cursor 改变了 Wayfair 开展 ML 研究的方式。Wayfair 的研究人员主导模型改进:提出假设、解读结果,并不断打磨最有潜力的创意。Cursor 则负责具体实现:构建实验、将其接入测试框架,并衡量结果。
根据全球最大的家居用品商品目录验证产品属性数据
Wayfair 目录中的每件商品,都通过结构化“标签”来描述其材质、尺寸、颜色和其他属性。超过 47,000 个不同的属性标签,为数千万件商品的搜索、筛选、推荐、商品展示和广告投放提供支持。
Wayfair 的 Applied AI 团队构建了一个验证模型,结合商品页面上的图片、描述和客户评价,对每个标签进行审查。该模型准确性很高,但如果要在 Wayfair 庞大的商品目录中大规模运行,成本仍然过高。
我们的目标,是让这个模型具备足够高的成本效益,从而能够应用于全球规模最大的家居用品商品目录之一。
为了实现这一目标,团队需要探索庞大的设计空间,包括不同的 LLM、输入预处理策略、提示、输出结构和评估方法。如果手动实现数百种组合,原本要花上数月时间。
因此,Wayfair 使用 Cursor 将实验循环自动化并行化。2025 年 12 月,团队开展了一次为期四天的实验冲刺,朝着降本目标快速推进。在 Cursor 负责实现层工作的情况下,五位研究人员构建并测试了 110 个具有实质差异的模型变体。最终胜出的架构将推理成本降低了 94%,同时提升了模型精度,并作为 Wayfair 标签验证的基线投入生产。


研究中最耗时的部分,是手动构建并评估每个实验。我们把这个循环自动化了,让 Cursor 负责实现和执行每个实验,因此原本需要几个月的工作,四天就完成了。
将实验执行交给 Cursor
在构建模型变体之前,团队先统一了 Cursor 执行和衡量实验的方式:每个变体都在同一测试数据集和同一评估基准上运行,以评估性能。测试与评估框架一旦作为 Cursor 中的自动化工作流固定下来,研究人员就能把全部精力放在实验设计的探索上:更换模型、重写提示、调整输出结构,或重新思考图片选择方式。
“这里有很多可探索的维度:模型、提示、输出结构、图片选择。有了 Cursor 自动化,我就专注于探索设计空间,”高级机器学习科学家 Guillermo Mosse 说道。“我会描述一个想法,有时甚至用语音模式连续讲上 5 分钟,Cursor 就会拉起这个变体、运行 eval,并发布结果。这个框架负责数据采样、评估和指标报告,让这些对比更加可信。”
Cursor 把瓶颈从“构建这个要花多久?”变成了“下一个值得测试的想法是什么?”。对于科学家来说,把注意力放在后者上要好得多。
这让研究人员能够在不到 30 分钟内把一个想法变成一个正在运行的实验。


研究人员大部分时间都花在头脑风暴下一步该尝试什么、审查结果,以及判断哪些想法值得再迭代一轮。Cursor 负责编写并运行每个变体,把最好的方案呈现给我们审查。
到 2026 年 3 月,Wayfair 又进行了一轮实验冲刺,这一次以 12 月已投入生产的模型作为新的基线进行基准测试。随着框架日趋成熟,即使此前从未接触过标签验证的初级工程师,也能在第一天就交付新的模型变体。研究人员运行了 140 多个新实验,并在表现最强的候选方案之上叠加遗传算法搜索,进行最终优化。结果是:成本再次降低了 90%。


将 Cursor 作为智能体优先型机器学习研究的基础
对 Wayfair 开展实验来说,以下几项功能尤为关键:
- 可扩展的智能体并行化: 在实验冲刺期间,研究人员经常会并行运行 20 多个 Cursor 智能体。Mosse 表示:“在 Cursor 中同时运行多个变体既直接又容易。这让我们为期四天的冲刺变得切实可行。”
- 跨平台界面: 一些研究人员主要在 Cursor 桌面应用中工作,另一些则主要使用 Cursor CLI。当桌面端团队需要更直接的底层控制时,他们可以直接在 Cursor 中打开终端或文件。
- 云端智能体: 研究人员希望即使离开笔记本电脑,实验也能继续运行。Mosse 表示:“通常一合上笔记本电脑,实验就会中断。Cursor 让我可以通勤、参加会议,或在白板上梳理创意,同时云端智能体会持续运行,让我们能够 24/7 不间断地开展实验。”
- 访问所有模型: 研究人员会针对不同任务选用不同模型。能在一个工具里访问所有最佳模型,让 Wayfair 可以轻松快速地迭代。
Nick Coleman 是一位高级机器学习科学经理,在试用过其他几个智能体后开始使用 Cursor。他说:“Cursor 是最容易上手的,而且您可以访问所有最佳模型。那些我想手动控制的事情,比如管理 git 分支或跳转到文件,也都可以直接在 Cursor 中轻松完成,不需要在不同工具之间来回切换。”
在 Wayfair 全面推广 Cursor
如今,Cursor 已在应用研究组织内广泛普及,远不止于负责商品目录丰富化的 ML 团队。研究人员正在构建并共享用于 ML 实验的内部技能仓库,进一步提升了开发速度。“我一直在 Cursor 中管理多个探索性研究项目。我来定义规格、设定成本边界,并提供值得一试的创意。智能体会连续运行数天,而我只需在必要时把控方向,”Mosse 说道。
这种全新的研究方式,能把数月的探索压缩到短短几天,这正是我们希望继续推进的方向。
Wayfair 的研究人员也在鼓励公司内的其他相关方使用智能体,其中也包括没有编程经验的合作伙伴。“我的建议是,把它用到超出你认为可能的极限,”Coleman 说道。“先告诉它你想完成什么,然后不断把边界往外推。”您可以在他们的研究博客上了解更多有关 Wayfair 工作的信息。
如果您正使用 Cursor 来加速 ML 研究,或希望在团队内扩大实验规模,请联系我们的团队,开启 Cursor 试用。