広告

大規模言語モデルのための注意整合型推論(Attention-Aligned Reasoning)

arXiv cs.CL / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モデルの潜在的な推論構造を用いて、重要な中間ステップと元のプロンプトへ注意を向ける手法「ATAR(Attention-Aligned Reasoning)」を提案する。
  • 長い「推論チェーン」では重要な文脈が埋もれてしまい、十分に注目されないことで誤りが生じうるとし、ATARはこの失敗モードを緩和するよう設計されている。
  • 6つのベンチマークに関する実験で、ATARは従来の最先端手法よりも優れた性能を示し、最大で絶対値15.39%の改善が報告されている。
  • 著者らは、ATARを用いた「推論を行わない(非推論)モデル」が、ほとんどのベンチマークで、同程度のサイズの専用推論モデルの性能に匹敵、あるいは上回ることを見出している。
  • アブレーション結果から、注意整合(attention-alignment)コンポーネントが主要な寄与要因であることが示され、改善は異なる注意誘導バックエンド間でも持続する。

広告