行動から理解へ:LLMエージェントにおける時間的概念の対角(コンフォーマル)解釈

arXiv cs.CL / 2026/4/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、LLMエージェントにおける推論ステップ間の内部メカニズムの不透明さに対し、時間的概念がどのように変化するかを解釈する枠組みを提案する。
  • ステップごとの報酬モデリングとコンフォーマル予測を組み合わせ、各ステップの内部表現を統計的に「成功」または「失敗」とラベル付けする。
  • これらの表現に対して線形プローブを学習し、タスク成功・失敗・推論ドリフトに対応する、活性空間上の潜在方向(方向ベクトル)を特定する。
  • ScienceWorldとAlfWorldの2つのシミュレーション環境での実験により、時間的概念が線形分離可能で、タスク成功と整合する解釈可能な構造が示される。
  • さらに、特定された「成功」方向へモデルを誘導することでエージェント性能を改善できる可能性や、早期失敗検知と介入につながることを予備結果として報告する。

Abstract

大規模言語モデル(LLM)は、推論、計画、そしてインタラクティブな環境内での行動を担える自律エージェントとして、ますます多くの場面で導入されています。多段階の推論や意思決定タスクを実行する能力が高まっているにもかかわらず、それらの逐次的な振る舞いを導く内部メカニズムは依然として不透明です。本論文では、段階的なコンフォーマル(conformal)な視点を通して、LLMエージェントにおける概念の時間的な変遷を解釈するための枠組みを提示します。我々は時間的タスクのためのコンフォーマル解釈可能性フレームワークを導入します。これは、段階的な報酬モデリングとコンフォーマル予測を組み合わせることで、各ステップにおけるモデルの内部表現が成功か失敗かを統計的にラベル付けします。続いて、これらの表現に対して線形プローブを学習し、時間的概念の方向性――すなわち、成功、失敗、あるいは推論のドリフトに対応して一貫した概念を表す、モデルの活性化空間における潜在的な方向――を特定します。ScienceWorld と AlfWorld という2つのシミュレーションされたインタラクティブ環境に関する実験結果により、これらの時間的概念が線形分離可能であり、タスク成功に整合した解釈可能な構造が明らかになります。さらに、同定された成功方向をモデル内部で誘導するために、提案フレームワークを活用することで、LLMエージェントの性能を改善するための予備的な結果も示します。したがって、提案手法は、複雑なインタラクティブ環境における信頼できる自律型言語モデルへの道を切り開くものとして、自律型LLMベースエージェントに対する介入とともに、早期の失敗検出のための原理に基づく方法を提供します。