止めるか、でっち上げるか?根拠ある推論のための言語モデル学習

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、入力が不十分なときに確信を持って誤った結論を作る「根拠のない推論」の原因は、推論能力の不足というよりも「推論の境界(必要な前提が欠けていること)を認識する能力」が欠けている点にあると主張している。
  • 提案手法GRIL(Grounded Reasoning via Interactive Reinforcement Learning)は、マルチターンの強化学習により推論を「明確化して一旦停止」(前提が十分かを判定) と「根拠ある推論」(前提が揃った後に解く) の2段階に分解する。
  • GRILは段階ごとの報酬設計で幻覚(ハルシネーション)を罰し、情報が足りない場合にモデルが先回りして止まり、明確化後に推論を再開できるようにする。
  • GSM8K-InsufficientとMetaMATH-Insufficientでの実験では、前提検出が最大45%改善し、タスク成功率が30%向上し、平均応答長も20%以上短縮されることが示されており、さらにノイズのあるユーザー応答への頑健性や分布外タスクへの汎化も確認されている。

Abstract

大規模言語モデルは、複雑な推論タスクにおいて目覚ましい進歩を遂げています。しかし、それらは入力が不完全な場合に、しばしば暗黙的に情報を捏造し、確信に満ちているが信頼性のない結論を導きます――この失敗モードを、我々は「根拠のない推論(ungrounded reasoning)」と呼びます。我々は、この問題が推論能力の不足ではなく、推論的境界意識――有効な推論に必要な前提が欠けていることを認識する能力――の欠如に起因すると主張します。この課題に対処するため、不完全な情報下での根拠のある推論のための、インタラクティブ強化学習による根拠づけ推論(Grounded Reasoning via Interactive Reinforcement Learning, GRIL)を提案します。GRILは、複数ターンの強化学習フレームワークとして、根拠のある推論を実現します。GRILは推論プロセスを2つの段階に分解します。すなわち、利用可能な情報が十分かどうかを特定する「明確化(clarify)と停止(pause)」、そして必要な前提が確立された後にタスク解決を実行する「根拠づけ推論(grounded reasoning)」です。幻覚を罰するために段階固有の報酬を設計し、それによってモデルがギャップを検知し、積極的に停止し、明確化の後に推論を再開できるようにします。GSM8K-InsufficientおよびMetaMATH-Insufficientに対する実験では、GRILが前提検出を大幅に改善することが示されました(最大45%)。その結果、平均応答長を20%以上短縮しつつ、タスク成功率が30%増加しました。追加の分析により、ノイズのあるユーザー応答に対する頑健性や、分布外タスクへの一般化も確認されています。