止めるか、でっち上げるか?根拠ある推論のための言語モデル学習
arXiv cs.CL / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、入力が不十分なときに確信を持って誤った結論を作る「根拠のない推論」の原因は、推論能力の不足というよりも「推論の境界(必要な前提が欠けていること)を認識する能力」が欠けている点にあると主張している。
- 提案手法GRIL(Grounded Reasoning via Interactive Reinforcement Learning)は、マルチターンの強化学習により推論を「明確化して一旦停止」(前提が十分かを判定) と「根拠ある推論」(前提が揃った後に解く) の2段階に分解する。
- GRILは段階ごとの報酬設計で幻覚(ハルシネーション)を罰し、情報が足りない場合にモデルが先回りして止まり、明確化後に推論を再開できるようにする。
- GSM8K-InsufficientとMetaMATH-Insufficientでの実験では、前提検出が最大45%改善し、タスク成功率が30%向上し、平均応答長も20%以上短縮されることが示されており、さらにノイズのあるユーザー応答への頑健性や分布外タスクへの汎化も確認されている。
