更新

DeepSeekMath‑V2、2025年に自検証数学推論で金牌取得

中国のAIスタートアップDeepSeekが、自己検証機能を備えた数学推論モデル「DeepSeekMath‑V2」を発表した。国際数学オリンピック(IMO 2025)や中国数学オリンピック(CMO 2024)で金牌レベルの成績を示し、米国のPutnam 2024でも118点/120…


DeepSeekMath‑V2、2025年に自検証数学推論で金牌取得 のキービジュアル

中国のAIスタートアップDeepSeekが、自己検証機能を備えた数学推論モデル「DeepSeekMath‑V2」を発表した。国際数学オリンピック(IMO 2025)や中国数学オリンピック(CMO 2024)で金牌レベルの成績を示し、米国のPutnam 2024でも118点/120点という高得点を記録した。

自己検証を核とした新しい学習フレームワーク

DeepSeekMath‑V2は、従来の大規模言語モデル(LLM)に検証器を組み込むことで、生成された証明や計算過程を自動的に審査する仕組みを採用している。チームは「最終的な答えの正確性だけでは、推論過程の厳密さを保証できない」と指摘し、特に定理証明のように段階的な論理展開が求められるタスクでの課題を強調した。

具体的には、LLMが生成した証明文を別のLLMベースの検証器が評価し、矛盾や不備があればフィードバックを返す。さらに、検証器自身の性能向上を目的に、難易度の高い訓練サンプルを自律的に生成し続ける「拡張検証計算」プロセスが組み込まれている。

競技実績と評価

DeepSeekMath‑V2は、2025年に開催された国際数学オリンピック(IMO)で金牌レベルの解答を提供し、同年の中国数学オリンピック(CMO 2024)でも同様の評価を受けた。さらに、米国の大学生向け数学コンテストであるPutnam 2024では、120点満点中118点というほぼ満点に近いスコアを獲得した。

これらの実績は、単に答えが正しいかどうかを測る従来のベンチマークとは異なり、証明過程全体の論理的整合性を評価できることを示す重要な指標となっている。公式は「自検証可能な数学推論は実用的な研究路であり、より強力で信頼性の高い数学知能システムの基盤になる」と述べている。

技術的背景とモデル構成

DeepSeekMath‑V2は、DeepSeek‑V3.2‑Exp‑Baseをベースに開発された。元のモデルは大規模なテキストコーパスと数学問題データセットで事前学習されており、言語理解と数式処理の両方に高い能力を有している。上位レイヤーに検証器を追加することで、生成された証明文を逐次的にチェックし、必要に応じて修正指示を出すループが形成される。

検証器は、自己教師あり学習(self‑supervised learning)と人手による校正データのハイブリッドで訓練されており、誤り検出率を低減させると同時に、難易度の高い問題に対する汎化性能を向上させている。

産業・教育への波及効果

自己検証型の数学AIは、教育現場や研究支援ツールとしての応用が期待される。教師は生徒の解答プロセスをAIが自動で検証し、誤りの根本原因を提示できるため、個別指導の効率化が図れる。また、研究者は複雑な証明の草稿をAIにチェックさせることで、ミスの早期発見と修正が可能になる。

さらに、AIインフラ(訓練・推論)分野においては、検証器と生成器の双方向連携が新たな計算パラダイムを提示し、他分野への応用も検討されている。たとえば、プログラムコードの自動検証や法的文書の論理チェックなど、形式的推論が必要とされる領域での活用が見込まれる。

オープンソース化とコミュニティの動向

DeepSeekは、モデルとコードをそれぞれHugging Face(https://huggingface.co/deepseek-ai/DeepSeek-Math-V2)およびGitHub(https://github.com/deepseek-ai/DeepSeek-Math-V2)で公開している。オープンソース化により、国内外の研究者が検証器のアルゴリズム改良や新たな訓練データの追加を行える環境が整備された。

中国国内では、AIモデルのオープンソース化が加速しており、今回のリリースは「過去一年で中国のオープンAIモデルのダウンロード数が米国を初めて上回った」という統計とも合致する。これにより、AI技術のエコシステムが拡大し、産業AI(実装)やデータ評価・安全性の分野での協働が活発化することが期待される。

今後の課題と展望

公式は「まだ多くの課題が残っている」とし、特に検証器の誤検出率低減や、極めて高度な数学領域への適用可能性についてさらなる研究が必要と述べている。今後は、より大規模な数学データセットの収集と、マルチモーダル情報(図形・グラフ)を統合した推論能力の拡張が検討されている。

自検証型の数学AIが実用化されれば、学術研究のスピードアップや教育格差の是正に寄与するだけでなく、AI安全性の観点からも「AIが自らの出力を評価できる」仕組みとして注目されるだろう。

出典: https://www.ithome.com/0/900/823.htm