正しい予測でも、誤った手順?頑健な思考連鎖合成のためのコンセンサス推論知識グラフ

arXiv cs.CL / 2026/4/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの推論トレースが失敗する要因には2つの異なるパターンがあると主張する。すなわち、各ステップ内の内容が誤っている場合(例:論理エラーや幻覚)と、ステップの挙動自体が誤っている場合(例:考えすぎや考えなさすぎ)であり、これらの問題はサンプルごとに異なる。
  • 推論を導くために単に正解ラベル(グラウンドトゥルース)を与えても、全体としての推論能力は向上せず、一般的な直感に反することを報告している。
  • ステップ内の欠陥とステップ間の欠陥の両方に対処するために、CRAFTを提案する。CRAFTは複数の候補トレースのコンセンサス部分からReasoning Knowledge Graph(RKG:推論知識グラフ)を構築する。
  • その後、CRAFTはRKG上でトポロジカル生成(topological generation)を行い、最終的な推論トレースを合成することで、より頑健で信頼性の高い手順列の生成を目指す。
  • 実験では、平均で10%超のラベル予測精度の向上が示され、論理および数学の推論ベンチマークにおいてベースラインより一貫した改善が得られている。さらに、トレースの品質が複数の評価次元にわたって向上するという追加の証拠も示される。