Composer 1.5 介绍

Cursor Team研究

几个月前,我们发布了首个具备代理能力的编码模型 Composer 1。从那以后,我们在模型的编码能力上取得了显著提升。

本次发布的 Composer 1.5,在日常使用中在速度与智能之间达成了出色的平衡。Composer 1.5 是在同一个预训练模型上,将强化学习规模进一步扩大 20 倍构建而成的。我们在 Composer 1.5 后训练过程中使用的算力,甚至超过了用于预训练基础模型的算力。

随着规模扩大,我们持续看到编码能力的提升。根据我们针对真实世界编码问题的内部基准测试结果,我们发现该模型很快就超越了 Composer 1,并在性能上持续攀升。改进在处理具有挑战性的任务时最为显著。

Composer 1.5 是一个“思考型”模型。在响应查询的过程中,模型会生成思考 token(thinking token),用来对用户的代码库进行推理并规划下一步操作。我们发现,这些思考阶段对模型的智能水平至关重要。与此同时,我们也希望 Composer 1.5 在日常使用中保持快速且具备良好的交互体验。为实现这一平衡,模型被训练成:在简单问题上以尽量少的思考快速作答,而在困难问题上则会持续思考,直到找到令人满意的答案。

为处理运行时间更长的任务,Composer 1.5 具备自我总结(self-summarize)的能力。这使得模型即便在可用上下文耗尽时,也可以继续探索解决方案。我们在 RL 训练中,将自我总结能力融入 Composer 1.5:当训练过程中的上下文用完时,要求模型生成有用的总结。在困难样例上,这一过程可能会递归触发多次。我们发现,自我总结使模型在上下文长度变化时,仍能基本保持其原有的准确度。

Composer 1.5 相比 Composer 1 是一个显著更强的模型,我们推荐在交互式场景中优先使用它。它的训练过程证明:面向编码任务的强化学习可以持续扩大规模,并在智能水平上带来可预期的提升。

此处了解更多 Composer 1.5 的定价信息。

归档于: 研究

作者: Cursor Team

Composer 1.5 介绍 · Cursor