DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能

量子位 2025-05-02 16:18:22

DeepSeek数学模型强化学习发现新技能

DeepSeek放大招！新模型专注数学定理证明，大幅刷新多项高难基准测试。

在普特南测试上，新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道。

目前的第一名在657道题中只做出 10道题，为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。

而未针对定理证明优化的 DeepSeek-R1只做出 1道。

让还没发布的R2更令人期待了。

除测评结果之外，论文中特别报告了 “通过强化学习发现新技能” 现象。

正如R1带来了“啊哈时刻”，Prover-V2也有令人意想不到的能力。

具体来说，在普特南测试中，参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。

团队仔细检查该模型的输出后发现，其推理方法存在一个独特模式：7B模型处理涉及有限基数的问题时，经常使用 Cardinal.toNat 和 Cardinal.natCast_inj ，而671B模型生成的输出中明显没有这些内容。

要注意，7B模型是在DeepSeek-Prover-V1.5-Base模型基础上，先使用671B模型在强化学习阶段收集的数据微调，再执行强化学习得来的。

也就是说，7B模型学会了671B模型没有学会的新技能。

DeepSeek数学模型系列

DeepSeek数学定理证明DeepSeek-Prover系列模型已推出3款：

2024年3月的 DeepSeek-Prover （后简称为Prover-V1） 2024年8月的 DeepSeek-Prover-V1.5 （后简称为Prover-V1.5） 2025年5月的 DeepSeek-Prover-V2 （后简称为Prover-V2）

Prover-V1 主要探索了通过大规模合成数据集微调DeepSeek-Math-7B ，来推进定理证明。

Prover-V1.5 在此基础上增加了证明助手反馈的强化学习（RLPAF）和蒙特卡洛树搜索方法。

Prover-V2 进一步提出 “子目标分解的强化学习” ，并且基础模型从DeepSeek-Math-7B升级到DeepSeek-V3。

整合DeepSeek-V3的高上下文窗口和强大的自然语言推理能力，把形式化和非形式化数学证明统一到一个模型中。

Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。

DeepSeek数学模型作者阵容

Prover-V2的作者共18人，共同一作 Z.Z. Ren, 邵智宏、辛华剑都是参与过V3、R1以及Prover系列前作的主力成员。

作者名单中出现了几位未参与前两代版本（Prover-V1、Prover-V1.5）的研究者。

比如 Shirong Ma ，清华本硕。公开资料显示，他于去年毕业后即加入DeepSeek，现为DeepSeek研究员，此前参与了从DeepSeek LLM v1到R1以及DeepSeek-Coder等工作。

还有 Zhe Fu、Yuxuan Liu 。

虽然他们都没出现在Prover-V1、Prover-V1.5的作者名单中，但均为DeepSeek资深成员。

最后还有一位新面孔 Hongxuan Tang ，暂未了解到具体信息。

（选自《量子位》微信公众号，《DeepSeek新数学模型刷爆记录！7B小模型自主发现671B模型不会的新技能》，编发有删减）

责任编辑：i泺源汤代禄