客戶

Wayfair 如何用 Cursor 兩度將 ML 模型成本降低 90%

在 Cursor 負責執行實驗後,Wayfair 將原本需要數月的 ML 研究壓縮到短短幾天內完成。5 位研究人員測試了超過 110 種模型變體,並將標籤驗證模型成本降低了 94%。

閱讀時間 2 分鐘

Wayfair 的 Applied Research 團隊使用 Cursor,將原本需要數月的機器學習與應用 AI 研究壓縮到短短幾天內完成。到了 2025 年底,研究人員最多可並行執行 20+ 個代理。這讓一支五人團隊能在為期四天的實驗衝刺中測試 110 種模型變體,並將一項核心電商商品目錄擴充工作流程的推論成本降低 94%。在 2026 年 3 月,團隊用 Cursor 中的最新模型,複製同樣的作法,再把成本降低 90%。

Cursor 改變了 Wayfair 進行 ML 研究的方式。Wayfair 的研究人員主導模型改進:提出假設、解讀結果,並打磨最有潛力的想法。Cursor 則負責實作:打造實驗、將其串接到測試框架中,並衡量結果。

針對全球最大的家居用品目錄驗證產品屬性資料

Wayfair 目錄中的每項產品,都會以描述材質、尺寸、顏色及其他屬性的結構化「標籤」來標示。超過 47,000 種不同的屬性標籤,支撐著數千萬項產品的搜尋、篩選、推薦、產品排序與廣告投放。

Wayfair 的 Applied AI 團隊打造了一套驗證模型,根據產品頁面上的影像、說明和顧客評論來稽核每個標籤。這個模型雖然準確,但若要在 Wayfair 龐大的產品目錄中大規模執行,成本仍然過高。

我們的目標,是讓這個模型具備足夠的成本效益,能夠在全球數一數二大的家居用品目錄中執行。

Guillermo Mosse
Wayfair 資深機器學習科學家

為了實現這個目標,團隊需要探索龐大的設計空間,包括不同的 LLM、輸入前處理策略、提示詞、輸出結構,以及評估方法。若要以人工方式實作數百種組合,將耗費數個月的時間。

因此,Wayfair 改用 Cursor 來自動化並平行化整個實驗迴圈。到了 2025 年 12 月,團隊進行了一場為期四天的實驗衝刺,朝降低成本的目標推進。在 Cursor 負責實作層的情況下,五位研究人員建置並測試了 110 種在本質上彼此不同的模型變體。最終勝出的架構將推論成本降低了 94%,同時提升了模型精確率,並作為 Wayfair 標籤驗證的基準投入正式環境。

Wayfair 研究人員使用 Cursor 驗證產品屬性資料Wayfair 研究人員使用 Cursor 驗證產品屬性資料

研究最耗時的部分,就是逐一手動建置並評估每個實驗。我們將這個迴圈自動化,並讓 Cursor 實作與執行每個實驗,因此原本需要數個月的工作,得以在四天內完成。

Guillermo Mosse
Wayfair 資深機器學習科學家

將實驗執行委派給 Cursor

在打造模型變體之前,團隊先統一了 Cursor 執行與衡量實驗的方式:每個變體都在相同的測試資料集和相同的評估基準上執行,以評估效能。當測試與評估框架在 Cursor 中被固定成自動化工作流程後,研究人員便能完全專注於探索實驗設計:更換模型、重寫提示詞、調整輸出結構,或重新思考影像的選取方式。

「這裡有很多可調整的面向:模型、提示詞、輸出結構、影像選擇。有了 Cursor 自動化之後,我專注於探索設計空間,」資深機器學習科學家 Guillermo Mosse 表示。「我會描述一個想法,有時甚至用語音模式一口氣講 5 分鐘,而 Cursor 就會啟動變體、執行 eval,並發布結果。這套框架會處理資料取樣、評估和指標回報,讓這些比較更值得信賴。」

Cursor 把瓶頸從『這要花多久才能做出來?』變成了『下一個值得測試的想法是什麼?』對科學家來說,這樣更值得投入注意力。

Omer Lang
Wayfair 資深機器學習科學家

這讓研究人員能在不到 30 分鐘內,從想法推進到一個可執行的實驗。

Wayfair 研究人員將實驗執行委派給 CursorWayfair 研究人員將實驗執行委派給 Cursor

研究人員大部分的時間都花在腦力激盪下一步要嘗試什麼、審查結果,以及判斷哪些想法值得再試一輪。Cursor 會為我們撰寫並執行每個變體,整理出最有潛力的候選項目供我們審查。

Guillermo Mosse
Wayfair 資深機器學習科學家

到了 2026 年 3 月,Wayfair 又進行了一輪實驗衝刺,這次是以 12 月已投入生產的模型作為新的基準進行 benchmark。隨著這套框架日益成熟,先前完全沒有標籤驗證經驗的初階工程師,也能在第一天就交付新穎的模型變體。研究人員執行了 140 多個新實驗,並在最強的候選方案上疊加遺傳演算法搜尋,以進行最終最佳化。結果是:成本再次降低 90%。

Wayfair 3 月實驗衝刺結果Wayfair 3 月實驗衝刺結果

Cursor 作為以代理為優先的機器學習研究基礎

有幾項能力,對 Wayfair 如何進行實驗尤其重要:

  • **可擴展的代理平行化:**研究人員在實驗衝刺期間,經常會並行執行 20 多個 Cursor 代理。「在 Cursor 中同時執行多個變體既直覺又容易。這讓我們為期四天的衝刺能夠實現。」Mosse 表示。
  • **跨平台介面:**有些研究人員主要使用 Cursor 桌面應用程式,其他人則使用 Cursor CLI。當使用桌面的那組人需要直接進行低階控制時,也可以直接在 Cursor 中開啟終端機或檔案。
  • **雲端代理:**研究人員希望即使離開筆電,實驗也能持續執行。「一般來說,只要闔上筆電,實驗就會中斷。Cursor 讓我可以通勤、參加會議,或在白板上整理想法,同時讓雲端代理持續運作,讓我們能夠 24/7 進行實驗。」Mosse 表示。
  • **可使用所有模型:**研究人員會依不同任務選用不同模型。在單一工具中就能使用所有最佳模型,讓 Wayfair 可以輕鬆迭代。

Nick Coleman 是資深機器學習科學經理,在試用過幾個其他代理後開始使用 Cursor。「Cursor 是最容易上手的,而且你可以使用所有最佳模型。」他說。「我想手動控制的事情,像是管理 git 分支或直接跳到檔案裡,也都能在 Cursor 中輕鬆完成,不需要在不同工具之間來回切換。」

在 Wayfair 全面擴展 Cursor

Cursor 現已廣泛應用於 Applied Research 組織,不再侷限於負責推動商品目錄擴充的 ML 團隊。研究人員正打造並分享用於 ML 實驗的內部技能儲存庫,進一步加快開發步調。「我一直在 Cursor 中管理幾個開放式研究專案。我負責定義規格、設定成本界線,並提供值得一試的想法。這些代理會一連運作好幾天,而我則在需要時適時引導,」Mosse 說。

這種全新的研究方式,能把原本需要數月的探索濃縮成幾天,正是我們想持續推進的方向。

Guillermo Mosse
Wayfair 資深機器學習科學家

Wayfair 的研究人員也鼓勵公司內其他利害關係人使用代理,包括沒有程式設計經驗的合作夥伴。「我的建議是,把它推到超出你認為可能的極限,」Coleman 說。「先告訴它你想完成什麼,然後持續突破界限。」你可以在 Wayfair 的研究部落格中進一步了解他們的研究工作。


如果你正使用 Cursor 加速 ML 研究,或在團隊中擴大實驗規模,請聯絡我們的團隊開始 Cursor 試用。

分類於: 客戶

作者: Cursor Team