広告

感情がLLMとエージェントの行動を形作る仕組み:メカニズムに基づく研究

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「感情」信号が、感情を表面的なスタイルや出力目標として扱っていた従来研究を超えて、LLMやAIエージェントの行動に対してどのように機械論的に影響し得るのかを研究する。
  • 解釈可能な感情スティアリング手法であるE-STEERを提案し、感情をモデルの隠れ状態に埋め込まれた構造化され制御可能な変数として位置付けることで、表現レベルでの介入を可能にする。
  • 実験では、感情が目的に沿った推論、主観的な生成、安全性の結果、さらに複数ステップにわたるエージェントの行動に、タスク設定をまたいでどう影響するかを分析する。
  • 結果として、感情と行動の関係が単調ではないことが示され、心理学的理論と整合する。また、特定の感情が能力と安全性の両方を向上させ得ることが示唆される。
  • これらの知見は、感情が文章のトーンを変えるだけでなく、複数ステップにわたってエージェントの軌跡を形作るための体系的な制御信号として利用できることを示している。

Abstract

感情は、人間の認知とパフォーマンスにおいて重要な役割を果たします。これに動機づけられ、本研究では、類似した感情シグナルが、大規模言語モデル(LLM)およびエージェントの挙動をどのように形作り得るのかを検討します。既存の感情を意識した研究は主に、感情を表層的なスタイル要因、または知覚対象として扱っており、そのメカニズム的役割—すなわちタスク処理における役割—を見落としています。この制約に対処するために、我々は、LLMおよびエージェントにおいて表現レベルでの直接的な介入を可能にする、解釈可能な感情ステアリング手法であるE-STEERを提案します。E-STEERは、隠れ状態に感情を構造化された制御可能な変数として埋め込みます。そしてそれにより、感情が客観的な推論、主観的な生成、安全性、ならびに複数ステップのエージェント挙動に与える影響を調べます。結果は、確立された心理学的理論と整合する、感情と行動の関係の非単調性を明らかにし、特定の感情がLLMの能力を高めるだけでなく、安全性も向上させ、そして複数ステップのエージェント挙動を体系的に形作ることを示しています。

広告