行動から理解へ:LLMエージェントにおける時間的概念の対角(コンフォーマル)解釈
arXiv cs.CL / 2026/4/23
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMエージェントにおける推論ステップ間の内部メカニズムの不透明さに対し、時間的概念がどのように変化するかを解釈する枠組みを提案する。
- ステップごとの報酬モデリングとコンフォーマル予測を組み合わせ、各ステップの内部表現を統計的に「成功」または「失敗」とラベル付けする。
- これらの表現に対して線形プローブを学習し、タスク成功・失敗・推論ドリフトに対応する、活性空間上の潜在方向(方向ベクトル)を特定する。
- ScienceWorldとAlfWorldの2つのシミュレーション環境での実験により、時間的概念が線形分離可能で、タスク成功と整合する解釈可能な構造が示される。
- さらに、特定された「成功」方向へモデルを誘導することでエージェント性能を改善できる可能性や、早期失敗検知と介入につながることを予備結果として報告する。




