大規模言語モデルのための注意整合型推論（Attention-Aligned Reasoning）

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、モデルの潜在的な推論構造を用いて、重要な中間ステップと元のプロンプトへ注意を向ける手法「ATAR（Attention-Aligned Reasoning）」を提案する。
長い「推論チェーン」では重要な文脈が埋もれてしまい、十分に注目されないことで誤りが生じうるとし、ATARはこの失敗モードを緩和するよう設計されている。
6つのベンチマークに関する実験で、ATARは従来の最先端手法よりも優れた性能を示し、最大で絶対値15.39%の改善が報告されている。
著者らは、ATARを用いた「推論を行わない（非推論）モデル」が、ほとんどのベンチマークで、同程度のサイズの専用推論モデルの性能に匹敵、あるいは上回ることを見出している。
アブレーション結果から、注意整合（attention-alignment）コンポーネントが主要な寄与要因であることが示され、改善は異なる注意誘導バックエンド間でも持続する。