要旨: 大規模言語モデル(LLM)は、複雑なタスクを解決するために、ますます連鎖的思考(CoT)推論に依存するようになっています。しかし、推論のトレースが、モデルの最終回答を単に“伴う”のではなく、最終回答の背後にあるプロセスに「寄与しており、かつそれを忠実に反映している」ことを保証するのは依然として困難です。私たちは、強化学習を通じてより忠実な推論を学習するために、微分可能な注意(attention)操作を活用する手法 AtManRL を提案します。正しい回答の生成に重要なCoT内のトークンを識別する加法的注意マスクを学習することで、最終予測に本当に影響を与える推論トレースをモデルに生成させるよう促す、顕著性(saliency)報酬の信号を導出します。この顕著性報酬を、GRPOフレームワーク内で結果(outcome)に基づく報酬と統合し、正確性と解釈可能性の両方を共同で最適化します。GSM8KおよびMMLUにおける、Llama-3.2-3B-Instructでの実験により、私たちのアプローチが影響力のある推論トークンを特定でき、より透明性の高い推論モデルの学習を可能にすることを示します。
AtManRL:微分可能な注意(アテンション)サリシーを用いた忠実な推論への取り組み
arXiv cs.CL / 2026/4/20
📰 ニュースModels & Research
要点
- この論文では、LLMのチェーン・オブ・ソート(CoT)推論を、最終回答に本当に寄与するものに近づけることを目的とした強化学習手法AtManRLを提案しています。
- AtManRLは、加法的な微分可能アテンションマスクを学習して、正しい予測を生むのに重要なCoTトークンを特定し、その結果をサリシー(重要度)報酬として生成します。
- このサリシー報酬を、GRPOフレームワークの中でアウトカム(正解)報酬と組み合わせ、精度と解釈可能性を同時に最適化します。
- GSM8KおよびMMLUでLlama-3.2-3B-Instructを用いた実験により、影響の大きい推論トークンを特定でき、より透明な推論モデルの学習に有効であることを示しています。



