止めるか、でっち上げるか？根拠ある推論のための言語モデル学習

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、入力が不十分なときに確信を持って誤った結論を作る「根拠のない推論」の原因は、推論能力の不足というよりも「推論の境界（必要な前提が欠けていること）を認識する能力」が欠けている点にあると主張している。
提案手法GRIL（Grounded Reasoning via Interactive Reinforcement Learning）は、マルチターンの強化学習により推論を「明確化して一旦停止」(前提が十分かを判定) と「根拠ある推論」(前提が揃った後に解く) の2段階に分解する。
GRILは段階ごとの報酬設計で幻覚（ハルシネーション）を罰し、情報が足りない場合にモデルが先回りして止まり、明確化後に推論を再開できるようにする。
GSM8K-InsufficientとMetaMATH-Insufficientでの実験では、前提検出が最大45%改善し、タスク成功率が30%向上し、平均応答長も20%以上短縮されることが示されており、さらにノイズのあるユーザー応答への頑健性や分布外タスクへの汎化も確認されている。

Abstract

大規模言語モデルは、複雑な推論タスクにおいて目覚ましい進歩を遂げています。しかし、それらは入力が不完全な場合に、しばしば暗黙的に情報を捏造し、確信に満ちているが信頼性のない結論を導きます――この失敗モードを、我々は「根拠のない推論（ungrounded reasoning）」と呼びます。我々は、この問題が推論能力の不足ではなく、推論的境界意識――有効な推論に必要な前提が欠けていることを認識する能力――の欠如に起因すると主張します。この課題に対処するため、不完全な情報下での根拠のある推論のための、インタラクティブ強化学習による根拠づけ推論（Grounded Reasoning via Interactive Reinforcement Learning, GRIL）を提案します。GRILは、複数ターンの強化学習フレームワークとして、根拠のある推論を実現します。GRILは推論プロセスを2つの段階に分解します。すなわち、利用可能な情報が十分かどうかを特定する「明確化（clarify）と停止（pause）」、そして必要な前提が確立された後にタスク解決を実行する「根拠づけ推論（grounded reasoning）」です。幻覚を罰するために段階固有の報酬を設計し、それによってモデルがギャップを検知し、積極的に停止し、明確化の後に推論を再開できるようにします。GSM8K-InsufficientおよびMetaMATH-Insufficientに対する実験では、GRILが前提検出を大幅に改善することが示されました（最大45%）。その結果、平均応答長を20%以上短縮しつつ、タスク成功率が30%増加しました。追加の分析により、ノイズのあるユーザー応答に対する頑健性や、分布外タスクへの一般化も確認されています。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/22Dailyインサイトを見る →

視覚におけるオートエンコーダと表現学習

Dev.to

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

Dev.to

AIエージェントにおけるコンテキスト肥大（Context Bloat）

Dev.to

プロダクトを開発するAI開発チームをオープンソース化しました

Dev.to

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

Reddit r/LocalLLaMA

止めるか、でっち上げるか？根拠ある推論のための言語モデル学習

要点

Abstract

💡 この記事が使われたインサイト

関連記事

視覚におけるオートエンコーダと表現学習

Google Stitch 2.0：数秒でシニア級UIを生成できるが、編集はまだ壊れる

AIエージェントにおけるコンテキスト肥大（Context Bloat）

プロダクトを開発するAI開発チームをオープンソース化しました

Qwen 3.6 35B A3B と Qwen 3.5 122B A10B の比較：自分では後者の方が大きく優れる

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer