LLMにおける認知構成要素のメカニスティック・デコーディング

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Representation Engineering（RepE）に基づくCognitive Reverse-Engineeringフレームワークを提案し、複雑な感情をLLMで機械的に解明するために、社会的比較にもとづく「嫉妬」を対象として分析する。
見積もり理論と、部分空間の直交化・回帰にもとづく重み付け・双方向の因果的ステアリングを組み合わせることで、嫉妬の心理的先行要因2つを切り出して定量化する。
Llama、Qwen、Gemmaの8つのLLMでの実験の結果、嫉妬は「比較対象人物の優位性」と「領域における自己定義的関連性」の構成要因による、構造化された線形結合としてモデル内部にエンコードされていることが示される。
内部表現は人間の心理的構成と概ね整合的であり、優位性が基礎的な引き金となり、関連性が最終的な強度の乗数として働くと結論づけている。
さらに、この枠組みにより有害な感情状態を機械的に検出し、外科的に抑制できる可能性が示され、マルチエージェント環境におけるAIセーフティのための表象モニタリング／介入につながる道筋が示唆される。

要旨: 大規模言語モデル（LLM）はますます高度な感情的能力を示している一方で、複雑な感情をそれらが処理する際の内部メカニズムはなお不明です。既存の解釈可能性アプローチは、多くの場合モデルをブラックボックスとして扱うか、粗い粒度の基本的な感情に焦点を当てるため、より複雑な情動状態の認知的構造は十分に調べられていません。このギャップを埋めるために、本研究では表現工学（Representation Engineering: RepE）に基づく認知的逆解析（Cognitive Reverse-Engineering）フレームワークを提案し、社会的比較に基づく嫉妬を分析します。評価理論に加え、部分空間の直交化、回帰に基づく重み付け、双方向の因果的ステアリングを組み合わせることで、嫉妬の2つの心理的前提条件（比較相手の優越性と、領域における自己定義的関連性）を分離し定量化し、それらがモデルの判断に与える因果効果を検討します。Llama、Qwen、Gemmaの各ファミリーから8つのLLMに対する実験では、モデルがこれらの構成要因の構造化された線形結合として嫉妬を本来的に符号化していることが示唆されます。モデル内部表現は、人間の心理的構成概念と概ね整合的であり、優越性を基礎的な引き金、関連性を最終的な強度乗数として扱っています。本フレームワークはさらに、有害な情動状態が機械的に検出され、外科的に抑制できることも示しており、多対多（マルチエージェント）環境におけるAI安全性のための、表現のモニタリングと介入への取り得る経路を示します。