価値駆動型の大規模言語モデルエージェントのための Context-Value-Action アーキテクチャ
arXiv cs.AI / 2026/4/8
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 既存のLLMエージェント評価は「LLM-as-a-judge」の自己参照バイアスにより見かけ上の性能が良く見えがちで、実データのグラウンドトゥルースで検証すると、推論を強めるほど価値の偏り(value polarization)が悪化することを示します。
- その問題に対し、Stimulus-Organism-Response(S-O-R)とSchwartzの基本的価値理論に基づく Context-Value-Action(CVA)アーキテクチャを提案し、行動生成と認知推論を分離します。
- CVAでは、自身による自己検証に頼らず、人間の真正データで学習した「Value Verifier」で動的な価値活性を明示的にモデリングして、価値偏向の抑制を狙います。
- CVAは、実世界の相互作用トレース110万件超を含むCVABenchでベースラインを大きく上回り、偏極の緩和と高い行動忠実性・解釈可能性の両立を報告しています。
