構造化された形式的中間表現を介して段階的な論理推論を形式的に検証可能な形で生成することの学習

arXiv cs.AI / 2026/4/1

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、最終的な正解に対して報酬を与える強化学習で訓練されたLLMであっても、最終回答が正しい場合でも、中間の推論ステップが信頼できないものになり得ると主張する。
PRoSFI（Process Reward over Structured Formal Intermediates）を提案し、形式的な証明器で構造化された中間ステップが検証できる推論チェーンのみを報酬対象とする。
モデルに直接の形式的証明を求める代わりに、PRoSFIでは、自然言語での推論に整合する構造化された中間表現を7B規模のモデルに生成させ、その各ステップを形式的に検査する。
この手法は、正確性を維持しつつ推論の信頼性を高めるものとして提示されており、モデルをより信頼でき、機械で検査可能な推論へと効果的に誘導する。
本研究は、構造化された形式的中間表現と形式的検証を組み合わせることを、信頼できる推論モデルのための単純で有効な学習アプローチとして位置づけている。

Dev.to

Dev.to

Dev.to

Reddit r/MachineLearning

Towards Data Science