感情がLLMとエージェントの行動を形作る仕組み:メカニズムに基づく研究
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「感情」信号が、感情を表面的なスタイルや出力目標として扱っていた従来研究を超えて、LLMやAIエージェントの行動に対してどのように機械論的に影響し得るのかを研究する。
- 解釈可能な感情スティアリング手法であるE-STEERを提案し、感情をモデルの隠れ状態に埋め込まれた構造化され制御可能な変数として位置付けることで、表現レベルでの介入を可能にする。
- 実験では、感情が目的に沿った推論、主観的な生成、安全性の結果、さらに複数ステップにわたるエージェントの行動に、タスク設定をまたいでどう影響するかを分析する。
- 結果として、感情と行動の関係が単調ではないことが示され、心理学的理論と整合する。また、特定の感情が能力と安全性の両方を向上させ得ることが示唆される。
- これらの知見は、感情が文章のトーンを変えるだけでなく、複数ステップにわたってエージェントの軌跡を形作るための体系的な制御信号として利用できることを示している。

