DeepSeek开源Prover-V2强推理模型

机器之心 2025-05-02 16:18:02

五一劳动节到了，DeepSeek 的新消息可没停下来。

前些天到处都在流传着 DeepSeek-R2 即将发布的传言，DeepSeek 确实有新动作，不过大家没等来 R2，等来的是 DeepSeek-Prover-V2，它当然也是开源的。

Prover-V2 在定理证明赛道上实现了业内最佳性能，在 MiniF2F 测试中达到了 88.9% 的通过率，在 AIME 24、25 上也有不错的分数。

4 月 30 日晚，机器学习协作平台 HuggingFace 上就更新了 DeepSeek-Prover-V2 的一些技术细节。

这次 DeepSeek 团队发布了两个版本的 DeepSeek-Prover-V2 模型，参数规模分别为 7B 和 671B。

其中，DeepSeek-Prover-V2-671B 是在 DeepSeek-V3-Base 基础上训练而成，而 DeepSeek-Prover-V2-7B 则基于 DeepSeek-Prover-V1.5-Base 构建，并支持最长 32K tokens 的上下文长度扩展。

要一句话总结 DeepSeek-Prover-V2 到底是什么？ 它是一款专为“数学 AI 编程语言”Lean 4 打造的开源大语言模型，专注于形式化定理证明。

它的初始化数据通过一个由 DeepSeek-V3 驱动的递归定理证明流程收集而来。在冷启动训练阶段，首先通过提示 DeepSeek-V3 将复杂问题分解成一系列可以解决的子目标。每解决一个子目标就会将这些证明整合成“思维链”。融合 DeepSeek-V3 的逐步推理轨迹，共同构建出用于强化学习的初始训练数据。

这一策略的精妙之处在于：它能够将非形式化和形式化的数学推理融合到一个统一的模型中，让模型既能像人一样灵活思考，也能像机器一样严谨论证，实现了数学推理的一体化融合。

这次，DeepSeek 还发布了 ProverBench，这是一个包含 325 道题目的基准数据集。其中，15 道题来自最近两届 AIME 数学竞赛（AIME 24 和 25）中的数论与代数题目，经过形式化处理，具备真实的高中竞赛难度。其余 310 道题则精选自教材示例和教学教程，覆盖内容多样，涉及高中竞赛题和本科数学题。

在社交网络上有人表示，将复杂问题分解再处理的方式像极了人们教给初级工程师的技巧，DeepSeek-Prover-V2 处理数学问题的思路对于代码等问题来说应该也是毫无问题。

不过，大家似乎对 DeepSeek-R2 有着更大的热情！敲敲这头小蓝鲸，R2 到底什么时候发出啊！

（本文选自《机器之心》微信公众号，《DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过》，编发有删减）

责任编辑：i泺源汤代禄