DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

量子位    2025-05-02 16:18:22

DeepSeek数学模型强化学习发现新技能 

DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。

在普特南测试上, 新模型 DeepSeek-Prover-V2 直接把记录刷新到 49道

目前的 第一名 在657道题中只做出 10道 题,为Kimi与 AIME2024冠军团队Numina 合作成果 Kimina-Prover 。

而未针对定理证明优化的 DeepSeek-R1只做出 1道

让还没发布的R2更令人期待了。

除测评结果之外,论文中特别报告了 “通过强化学习发现新技能” 现象

正如R1带来了“啊哈时刻”,Prover-V2也有令人意想不到的能力。

具体来说,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。

队仔细检查该模型的输出后发现,其推理方法存在一个独特模式:7B模型处理涉及有限基数的问题时,经常使用 Cardinal.toNat 和 Cardinal.natCast_inj ,而671B模型生成的输出中明显没有这些内容。

要注意,7B模型是在DeepSeek-Prover-V1.5-Base模型基础上,先使用671B模型在强化学习阶段收集的数据微调,再执行强化学习得来的。

也就是说,7B模型学会了671B模型没有学会的新技能。


DeepSeek数学模型系列

DeepSeek数学定理证明DeepSeek-Prover系列模型已推出3款:

2024年3月的 DeepSeek-Prover (后简称为Prover-V1) 2024年8月的 DeepSeek-Prover-V1.5 (后简称为Prover-V1.5) 2025年5月的 DeepSeek-Prover-V2 (后简称为Prover-V2)

Prover-V1 主要探索了 通过大规模合成数据集微调DeepSeek-Math-7B ,来推进定理证明。

Prover-V1.5 在此基础上增加了 证明助手反馈的强化学习 (RLPAF)和 蒙特卡洛树搜索 方法。

Prover-V2 进一步提出 “子目标分解的强化学习” ,并且基础模型从DeepSeek-Math-7B升级到DeepSeek-V3。

整合DeepSeek-V3的高上下文窗口和强大的自然语言推理能力,把形式化和非形式化数学证明统一到一个模型中。

Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。


DeepSeek数学模型作者阵容

Prover-V2的作者共18人,共同一作 Z.Z. Ren, 邵智宏、辛华剑 都是参与过V3、R1以及Prover系列前作的主力成员。

作者名单中出现了几位未参与前两代版本 (Prover-V1、Prover-V1.5) 的研究者。

比如 Shirong Ma ,清华本硕。公开资料显示,他于去年毕业后即加入DeepSeek,现为DeepSeek研究员,此前参与了从DeepSeek LLM v1到R1以及DeepSeek-Coder等工作。

还有 Zhe Fu、Yuxuan Liu

虽然他们都没出现在Prover-V1、Prover-V1.5的作者名单中,但均为DeepSeek资深成员。

最后还有一位新面孔 Hongxuan Tang ,暂未了解到具体信息。


(选自《量子位》微信公众号,《DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能》,编发有删减)

责任编辑:i泺源 汤代禄