価値駆動型の大規模言語モデルエージェントのための Context-Value-Action アーキテクチャ

arXiv cs.AI / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 既存のLLMエージェント評価は「LLM-as-a-judge」の自己参照バイアスにより見かけ上の性能が良く見えがちで、実データのグラウンドトゥルースで検証すると、推論を強めるほど価値の偏り(value polarization)が悪化することを示します。
  • その問題に対し、Stimulus-Organism-Response(S-O-R)とSchwartzの基本的価値理論に基づく Context-Value-Action(CVA)アーキテクチャを提案し、行動生成と認知推論を分離します。
  • CVAでは、自身による自己検証に頼らず、人間の真正データで学習した「Value Verifier」で動的な価値活性を明示的にモデリングして、価値偏向の抑制を狙います。
  • CVAは、実世界の相互作用トレース110万件超を含むCVABenchでベースラインを大きく上回り、偏極の緩和と高い行動忠実性・解釈可能性の両立を報告しています。

Abstract

大規模言語モデル(LLM)は人間の行動をシミュレートする可能性を示してきましたが、既存のエージェントにはしばしば行動の硬直性という欠陥があります。この欠陥は、現在の「LLM-as-a-judge(LLMを裁定者とする)」評価における自己参照的バイアスによってしばしば見えなくされています。経験的な確固たる真実(ground truth)に対して評価することで、直感に反する現象を明らかにします。すなわち、プロンプト駆動の推論の強度を高めても忠実性は向上せず、むしろ価値の二極化を悪化させ、人々(集団)の多様性が崩れてしまうのです。これに対処するため、刺激(Stimulus)- 生命体(Organism)- 反応(Response)のS-O-Rモデルと、シュワルツの「基本的人間の価値の理論」に基づく、コンテキスト-価値-行動(CVA)アーキテクチャを提案します。自己検証に依存する手法とは異なり、CVAは新しいValue Verifier(価値検証器)を通じて、真正な人間データで訓練し、動的な価値の活性化を明示的にモデル化することで、認知的推論から行動生成を切り離します。CVAのベンチマークであるCVABench(1.1百万件超の実世界の相互作用トレースから構成)での実験により、CVAがベースラインを大幅に上回ることが示されます。我々のアプローチは、二極化を効果的に緩和しつつ、優れた行動の忠実性と解釈可能性を提供します。