最終回答レベルのファインチューニングのための分布整合ゲーム

arXiv cs.LG / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、推論の途中経路ではなく最終回答の正しさや性質に基づいて言語モデルを最適化する「最終回答レベルのファインチューニング(ALFT)」を扱います。
  • 著者らは、潜在する推論パスが膨大なため、最終回答レベルの目的を直接最適化することが計算的に不可能(不可能)であることを示します。
  • 問題を解きやすくするために、生成側のPolicyと補助分布であるTargetの2プレイヤーによる「分布整合ゲーム(Distributional Alignment Game)」をゲーム理論として提案します。
  • このゲームのナッシュ均衡が、元の最終回答レベル最適化問題の解とちょうど一致することを証明し、不可能な周辺化を、計算可能な射影問題へ置き換えます。
  • さらに、この枠組みが多様性と自己改善(コヒーレンス)の最近の手法を統一し、Group Relative Policy Optimization(GRPO)に対応した効率的なアルゴリズム(例:Coherence-GRPO)によって、数学的推論タスクで顕著な計算複雑度の削減を達成すると示しています。