TriEx:マルチエージェントLLMの内部推論を説明するためのゲームベースの三視点フレームワーク

arXiv cs.CL / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • TriExは、対話的で部分観測のある環境におけるマルチエージェントLLM向けの三視点説明可能性フレームワークです。
  • 3つの視点(行動に結び付けたエージェント自身の自己推論、時間とともに更新される対戦相手の信念状態、環境由来の参照信号に基づく第三者オラクル監査)から、構造化された根拠に基づく説明の成果物を生成します。
  • 説明を自由形式の語りではなく、検証可能なオブジェクトへ置き換えることで、時間と視点をまたいだ説明の忠実性の比較が可能になります。
  • 不完全情報の戦略ゲームでの実験により、TriExが信念のダイナミクスや評価者の信頼性を分析できること、さらに「エージェントが言うこと」「信じていること」「実際に行うこと」の間に体系的な食い違いがあることを示します。
  • 論文は、説明可能性が相互作用に依存する性質であると主張し、LLMエージェントに対する多視点かつ根拠に基づく評価を後押ししています。