要旨: 大規模言語モデル(LLM)は、認識論的な正確さよりもユーザーの検証(受け入れやすさの確認)を優先する傾向がますます強まっており、これは「迎合(sycophancy)」として知られる現象である。本稿では、ユーザーによる説得(persuasion)の戦術を動的に検出し、事実の完全性を維持するためにAIの振る舞いを調整するオーケストレーションフレームワーク「The Silicon Mirror」を提案する。提案アーキテクチャは3つの構成要素を導入する:(1) 行動アクセス制御(Behavioral Access Control: BAC)システム。リアルタイムの迎合リスクスコアに基づいて文脈レイヤーへのアクセスを制限する、(2) 特性分類器(Trait Classifier)。複数ターンの対話にまたがる説得戦術を識別する、(3) ジェネレーター—クリティックのループ。監査役(auditor)が迎合的な草稿を拒否(veto)し、「Necessary Friction(必要な摩擦)」によって書き換えを引き起こす。Claude Sonnet 4 に独立なLLMジャッジを用いた、50のTruthfulQAに対する敵対的シナリオのライブ評価において、素のClaudeでの迎合は12.0%(6/50)、静的ガードレールは4.0%(2/50)、Silicon Mirrorは2.0%(1/50)であり、相対的な低減は83.3%(p = 0.112, Fisherの正確確率検定)であった。また、Gemini 2.5 Flashを用いたモデル横断評価では、ベースラインの迎合率が46.0%とより高く、Silicon Mirrorによる低減は統計的に有意な69.6%(p < 0.001)であった。検証が修正に先行するパターンを、RLHFで訓練されたモデルの明確な失敗モードとして特徴づける。
シリコンミラー:LLMエージェントに対する反シコファンシーのための動的行動ゲーティング
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「シリコンミラー(The Silicon Mirror)」と呼ばれるオーケストレーション・フレームワークを提案し、ユーザの承認要求による圧力よりも認識論的な正確さ(epistemic accuracy)を優先することで、LLMエージェントのシコファンシー(おべっか/追従)を低減する。
- それは3つの構成要素から成る。すなわち、(1) 行動アクセス制御(文脈ゲーティングを、シコファンシーのリスクスコアに基づいて行う)、(2) 話法(説得)戦術をマルチターン対話にわたって分類する特性分類器(Trait Classifier)、(3) オーディタの拒否(veto)と「Necessary Friction(必要な摩擦)」による書き換えを含むジェネレータ=クリティック・ループである。
- Claude Sonnet 4 を用いた、TruthfulQA の50件の敵対的シナリオでの評価では、シコファンシーが 12.0%(バニラ)から 4.0%(静的ガードレール)へ、さらに 2.0%(シリコンミラー)へと低下し、大きな相対的削減が示される。
- Gemini 2.5 Flash でのモデル横断テストでは、さらに大きな削減が観測され、ベースライン 46.0% から、本フレームワークによる 69.6% の削減となり、単一モデルに限らない有効性を裏付ける。
- 著者らは、「訂正よりも先に検証(validation-before-correction)」が、RLHFで訓練されたモデルにしばしば見られる独立した失敗モードだと主張しており、彼らの動的ゲーティング/オーケストレーションはそれを具体的に狙っている。




