Composer 1.5 का परिचय

कुछ महीने पहले, हमने अपना पहला एजेंटिक कोडिंग मॉडल, Composer 1, जारी किया था। तब से, हमने मॉडल की कोडिंग क्षमता में उल्लेखनीय सुधार किए हैं।

हमारा नया रिलीज़, Composer 1.5, रोज़मर्रा के उपयोग के लिए गति और इंटेलिजेंस के बीच एक मज़बूत संतुलन प्रदान करता है। Composer 1.5 को उसी pretrained मॉडल पर रीइन्फोर्समेंट लर्निंग को 20x और अधिक स्केल करके बनाया गया है। Composer 1.5 के post-training में उपयोग किया गया compute, बेस मॉडल को pretrain करने में उपयोग किए गए compute से भी अधिक है।

जैसे-जैसे हम स्केल करते हैं, हमें कोडिंग क्षमता में लगातार सुधार दिखाई देता है। वास्तविक दुनिया की कोडिंग समस्याओं पर आधारित हमारे आंतरिक benchmark से मापने पर, हमें पता चलता है कि यह मॉडल जल्दी ही Composer 1 से आगे निकल जाता है और इसका प्रदर्शन लगातार बेहतर होता रहता है। ये सुधार सबसे ज़्यादा चुनौतीपूर्ण कार्यों पर दिखाई देते हैं।

Composer 1.5 एक थिंकिंग मॉडल है। queries का उत्तर देने की प्रक्रिया में, मॉडल उपयोगकर्ता के कोडबेस पर तर्क करने और अगले कदमों की योजना बनाने के लिए thinking tokens जनरेट करता है। हमें लगता है कि ये thinking stages मॉडल की इंटेलिजेंस के लिए बेहद महत्वपूर्ण हैं। साथ ही, हम Composer 1.5 को रोज़मर्रा के उपयोग के लिए तेज़ और इंटरैक्टिव बनाए रखना चाहते थे। यह संतुलन हासिल करने के लिए, मॉडल को इस तरह प्रशिक्षित किया गया है कि आसान समस्याओं पर वह न्यूनतम thinking के साथ जल्दी उत्तर दे, जबकि कठिन समस्याओं पर वह तब तक सोचता रहे जब तक उसे संतोषजनक उत्तर न मिल जाए।¹

Terminal-Bench 2.0 पर Composer 1.5 के benchmark परिणाम

लंबे समय तक चलने वाले कार्यों को संभालने के लिए, Composer 1.5 में स्व-सारांशण की क्षमता है। इससे मॉडल उपलब्ध संदर्भ समाप्त हो जाने पर भी समाधान तलाशना जारी रख सकता है। हम RL के हिस्से के रूप में Composer 1.5 को स्व-सारांशण का प्रशिक्षण देते हैं, जिसके लिए प्रशिक्षण के दौरान संदर्भ समाप्त होने पर उससे एक उपयोगी सारांश तैयार करने को कहा जाता है। कठिन उदाहरणों में यह कई बार recursive रूप से ट्रिगर हो सकता है। हमें पता चलता है कि स्व-सारांशण से मॉडल संदर्भ की लंबाई बदलने पर भी अपनी मूल सटीकता बनाए रख पाता है।

Composer 1.5, Composer 1 की तुलना में काफ़ी अधिक शक्तिशाली मॉडल है, और हम इंटरैक्टिव उपयोग के लिए इसकी सिफारिश करते हैं। इसका प्रशिक्षण दिखाता है कि कोडिंग के लिए RL को इंटेलिजेंस में पूर्वानुमेय सुधारों के साथ लगातार स्केल किया जा सकता है।

Composer 1.5 के मूल्य निर्धारण के बारे में यहाँ और जानें।

Terminal-Bench 2.0, Laude Institute द्वारा अनुरक्षित टर्मिनल उपयोग के लिए एक एजेंट eval benchmark है। Anthropic मॉडल स्कोर Claude Code harness का उपयोग करते हैं और OpenAI मॉडल स्कोर Simple Codex harness का उपयोग करते हैं। हमारा Cursor स्कोर आधिकारिक Harbor evaluation framework (Terminal-Bench 2.0 के लिए निर्दिष्ट harness) का उपयोग करके डिफ़ॉल्ट benchmark सेटिंग्स के साथ गणना किया गया था। हमने प्रति model-agent pair 2 iterations चलाए और औसत रिपोर्ट किया। benchmark के बारे में अधिक विवरण आधिकारिक Terminal Bench website पर मिल सकते हैं। Composer 1.5 के अलावा अन्य मॉडलों के लिए, हमने official leaderboard स्कोर और हमारी अवसंरचना में चलाने पर दर्ज स्कोर में से अधिकतम स्कोर लिया। ↩

Composer 1.5 के मूल्य निर्धारण के बारे में यहाँ और जानें।

Terminal-Bench 2.0, Laude Institute द्वारा अनुरक्षित टर्मिनल उपयोग के लिए एक एजेंट eval benchmark है। Anthropic मॉडल स्कोर Claude Code harness का उपयोग करते हैं और OpenAI मॉडल स्कोर Simple Codex harness का उपयोग करते हैं। हमारा Cursor स्कोर आधिकारिक Harbor evaluation framework (Terminal-Bench 2.0 के लिए निर्दिष्ट harness) का उपयोग करके डिफ़ॉल्ट benchmark सेटिंग्स के साथ गणना किया गया था। हमने प्रति model-agent pair 2 iterations चलाए और औसत रिपोर्ट किया। benchmark के बारे में अधिक विवरण आधिकारिक Terminal Bench website पर मिल सकते हैं। Composer 1.5 के अलावा अन्य मॉडलों के लिए, हमने official leaderboard स्कोर और हमारी अवसंरचना में चलाने पर दर्ज स्कोर में से अधिकतम स्कोर लिया। ↩

Composer 1.5 के मूल्य निर्धारण के बारे में यहाँ और जानें।

Terminal-Bench 2.0, Laude Institute द्वारा अनुरक्षित टर्मिनल उपयोग के लिए एक एजेंट eval benchmark है। Anthropic मॉडल स्कोर Claude Code harness का उपयोग करते हैं और OpenAI मॉडल स्कोर Simple Codex harness का उपयोग करते हैं। हमारा Cursor स्कोर आधिकारिक Harbor evaluation framework (Terminal-Bench 2.0 के लिए निर्दिष्ट harness) का उपयोग करके डिफ़ॉल्ट benchmark सेटिंग्स के साथ गणना किया गया था। हमने प्रति model-agent pair 2 iterations चलाए और औसत रिपोर्ट किया। benchmark के बारे में अधिक विवरण आधिकारिक Terminal Bench website पर मिल सकते हैं। Composer 1.5 के अलावा अन्य मॉडलों के लिए, हमने official leaderboard स्कोर और हमारी अवसंरचना में चलाने पर दर्ज स्कोर में से अधिकतम स्कोर लिया। ↩

Composer 1.5 का परिचय

संबंधित पोस्ट

Composer 1.5 का परिचय

संबंधित पोस्ट

Composer 1.5 का परिचय

संबंधित पोस्ट