Composer 1.5 介绍

几个月前，我们发布了首个具备代理能力的编码模型 Composer 1。从那以后，我们在模型的编码能力上取得了显著提升。

本次发布的 Composer 1.5，在日常使用中在速度与智能之间达成了出色的平衡。Composer 1.5 是在同一个预训练模型上，将强化学习规模进一步扩大 20 倍构建而成的。我们在 Composer 1.5 后训练过程中使用的算力，甚至超过了用于预训练基础模型的算力。

随着规模扩大，我们持续看到编码能力的提升。根据我们针对真实世界编码问题的内部基准测试结果，我们发现该模型很快就超越了 Composer 1，并在性能上持续攀升。改进在处理具有挑战性的任务时最为显著。

Composer 1.5 是一个“思考型”模型。在响应查询的过程中，模型会生成思考 token (thinking token) ，用来对用户的代码库进行推理并规划下一步操作。我们发现，这些思考阶段对模型的智能水平至关重要。与此同时，我们也希望 Composer 1.5 在日常使用中保持快速且具备良好的交互体验。为实现这一平衡，模型被训练成：在简单问题上以尽量少的思考快速作答，而在困难问题上则会持续思考，直到找到令人满意的答案。¹

Composer 1.5 在 Terminal-Bench 2.0 上的基准测试结果

为处理运行时间更长的任务，Composer 1.5 具备自我总结 (self-summarize) 的能力。这使得模型即便在可用上下文耗尽时，也可以继续探索解决方案。我们在 RL 训练中，将自我总结能力融入 Composer 1.5：当训练过程中的上下文用完时，要求模型生成有用的总结。在困难样例上，这一过程可能会递归触发多次。我们发现，自我总结使模型在上下文长度变化时，仍能基本保持其原有的准确度。

Composer 1.5 相比 Composer 1 是一个显著更强的模型，我们推荐在交互式场景中优先使用它。它的训练过程证明：面向编码任务的强化学习可以持续扩大规模，并在智能水平上带来可预期的提升。

在此处了解更多 Composer 1.5 的定价信息。

Terminal-Bench 2.0 是由 Laude Institute 维护的、用于终端使用场景的代理评测基准。Anthropic 模型分数使用 Claude Code harness，OpenAI 模型分数使用 Simple Codex harness。我们的 Cursor 分数是使用官方的 Harbor 评测框架（Terminal-Bench 2.0 指定的 harness），在默认基准设置下计算得到的。我们对每个模型-代理组合运行了 2 次迭代，并报告其平均值。关于该基准的更多细节可参见官方的 Terminal Bench 网站。对于除 Composer 1.5 之外的其他模型，我们取了官方排行榜分数与在我们基础设施中运行所记录分数中的最大值。↩

几个月前，我们发布了首个具备代理能力的编码模型 Composer 1。从那以后，我们在模型的编码能力上取得了显著提升。

在此处了解更多 Composer 1.5 的定价信息。

Terminal-Bench 2.0 是由 Laude Institute 维护的、用于终端使用场景的代理评测基准。Anthropic 模型分数使用 Claude Code harness，OpenAI 模型分数使用 Simple Codex harness。我们的 Cursor 分数是使用官方的 Harbor 评测框架（Terminal-Bench 2.0 指定的 harness），在默认基准设置下计算得到的。我们对每个模型-代理组合运行了 2 次迭代，并报告其平均值。关于该基准的更多细节可参见官方的 Terminal Bench 网站。对于除 Composer 1.5 之外的其他模型，我们取了官方排行榜分数与在我们基础设施中运行所记录分数中的最大值。↩

几个月前，我们发布了首个具备代理能力的编码模型 Composer 1。从那以后，我们在模型的编码能力上取得了显著提升。

在此处了解更多 Composer 1.5 的定价信息。

Terminal-Bench 2.0 是由 Laude Institute 维护的、用于终端使用场景的代理评测基准。Anthropic 模型分数使用 Claude Code harness，OpenAI 模型分数使用 Simple Codex harness。我们的 Cursor 分数是使用官方的 Harbor 评测框架（Terminal-Bench 2.0 指定的 harness），在默认基准设置下计算得到的。我们对每个模型-代理组合运行了 2 次迭代，并报告其平均值。关于该基准的更多细节可参见官方的 Terminal Bench 网站。对于除 Composer 1.5 之外的其他模型，我们取了官方排行榜分数与在我们基础设施中运行所记录分数中的最大值。↩

Composer 1.5 介绍

相关文章

Composer 1.5 介绍

相关文章

Composer 1.5 介绍

相关文章