अनुसंधान

Composer 2 पर एक तकनीकी रिपोर्ट

Sasha Rush4 मिनट में पढ़ें
Composer 2 पर एक तकनीकी रिपोर्ट

हमने arXiv में Composer 2 के प्रशिक्षण पर एक तकनीकी रिपोर्ट पोस्ट की है। Composer 2 एजेंटिक सॉफ़्टवेयर इंजीनियरिंग के लिए हमारा कोडिंग मॉडल है। यह रिपोर्ट पूरी प्रशिक्षण प्रक्रिया को कवर करती है—एक खुले बेस मॉडल, Kimi K2.5, पर सतत प्रीट्रेनिंग से लेकर बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग तक—और इसमें वास्तविक Cursor परिवेश के अधिकतम निकट रहने पर विशेष ध्यान दिया गया है।

सतत प्रीट्रेनिंग और RL

Composer 2 को दो चरणों में प्रशिक्षित किया जाता है: पहले ऐसे डेटा मिश्रण पर सतत प्रीट्रेनिंग की जाती है, जिसमें कोड पर ज़ोर होता है ताकि बेस मॉडल का कोडिंग ज्ञान और गहरा हो सके; इसके बाद एंड-टू-एंड एजेंट प्रदर्शन को बेहतर बनाने के लिए बड़े पैमाने पर रीइन्फोर्समेंट लर्निंग की जाती है। हम पाते हैं कि प्रीट्रेनिंग लॉस को घटाने से डाउनस्ट्रीम RL प्रदर्शन बेहतर होता है, और बेहतर आधारभूत ज्ञान भरोसेमंद रूप से एक बेहतर एजेंट में बदलता है।

Composer 2 का RL प्रशिक्षण यथार्थवादी Cursor सत्रों में होता है, उन्हीं उपकरणों और उसी हार्नेस के साथ जिनका उपयोग परिनियोजित मॉडल करता है, और इसे समस्याओं के ऐसे वितरण पर लागू किया जाता है जो उन सभी तरह के कामों को दर्शाता है जो डेवलपर्स Composer से करने के लिए कहते हैं। हम पाते हैं कि RL प्रशिक्षण औसत प्रदर्शन और best-of-K प्रदर्शन, दोनों में सुधार करता है, जिससे संकेत मिलता है कि मॉडल सिर्फ़ पहले से ज्ञात समाधान पाथ पर केंद्रित नहीं हो रहा, बल्कि नए समाधान पाथ भी सीख रहा है।

CursorBench के साथ वास्तविक दुनिया में मूल्यांकन

कोडिंग मॉडल के निर्माण में एक बड़ी चुनौती यह है कि सार्वजनिक बेंचमार्क अक्सर उस काम को नहीं दर्शाते जो डेवलपर्स वास्तव में करते हैं। कार्य जरूरत से ज़्यादा विस्तार से परिभाषित होते हैं, समाधान सीमित होते हैं, और कोडबेस छोटे होते हैं।

हमने CursorBench को अपनी इंजीनियरिंग टीम के वास्तविक कोडिंग सत्रों के आधार पर बनाया। इसमें ऐसे कार्य शामिल हैं जिनमें प्रॉम्प्ट छोटा और अस्पष्ट होता है, और समाधान के लिए कई फ़ाइलों में सैकड़ों पंक्तियों के परिवर्तन करने पड़ते हैं। मॉडल को वास्तविक समस्याओं के अनुरूप बनाए रखने के लिए हम प्रशिक्षण और मूल्यांकन, दोनों में CursorBench का उपयोग करते हैं।

प्रदर्शन

CursorBench पर Composer 2 ने 61.3 स्कोर किया, जो Composer 1.5 की तुलना में 37% सुधार है और सबसे शक्तिशाली फ्रंटियर मॉडल्स के मुकाबले प्रतिस्पर्धी है। सार्वजनिक बेंचमार्क्स पर, Composer 2 ने SWE-bench Multilingual पर 73.7 और Terminal-Bench पर 61.7 स्कोर किया। यह तुलनीय मॉडल्स की तुलना में काफ़ी कम अनुमिति लागत पर यह हासिल करता है, जिससे इंटरैक्टिव डेवलपर वर्कफ़्लो के लिए सटीकता और लागत के बीच इसका संतुलन पेरेटो-इष्टतम बनता है।

CursorBench पर Composer 2 की दक्षता और गुणवत्ताCursorBench पर Composer 2 की दक्षता और गुणवत्ता
अन्य मॉडल्स की तुलना में Composer 2 के तेज़ रूपांतर की गति और लागतअन्य मॉडल्स की तुलना में Composer 2 के तेज़ रूपांतर की गति और लागत

इन्फ्रास्ट्रक्चर

Composer 2 के प्रशिक्षण के लिए बड़े पैमाने पर अवसंरचना विकास की आवश्यकता पड़ी। इसमें Blackwell GPUs पर कुशल MoE प्रशिक्षण के लिए कस्टम लो-प्रिसिजन कर्नेल, कई रीजन में फैली पूरी तरह असिंक्रोनस RL पाइपलाइन, और Anyrun—हमारा आंतरिक कंप्यूट प्लेटफ़ॉर्म—शामिल था, जो कई लाख सैंडबॉक्स्ड कोडिंग परिवेश चलाने के लिए इस्तेमाल होता है। यह रिपोर्ट पूरे स्टैक को कवर करती है, जिसमें वेट सिंक्रोनाइज़ेशन, फॉल्ट टॉलरेंस, और परिवेश की निष्ठा के लिए हमारे तरीके शामिल हैं।

रिपोर्ट में इन सभी विषयों पर कहीं अधिक विस्तार है, जिसमें प्रशिक्षण रेसिपी पर एब्लेशन, एजेंट व्यवहार को आकार देने के लिए हमारा तरीका, और हमारी मूल्यांकन सूट का डिज़ाइन शामिल है।

Kimi K2.5, Ray, ThunderKittens, PyTorch, और व्यापक ओपन-सोर्स समुदाय के पीछे काम कर रही टीमों का धन्यवाद। हम Fireworks और Colfax को उनके सहयोग और साझेदारी के लिए भी धन्यवाद देना चाहते हैं।

पूरी तकनीकी रिपोर्ट यहाँ पढ़ें।