シリコンミラー：LLMエージェントに対する反シコファンシーのための動的行動ゲーティング

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「シリコンミラー（The Silicon Mirror）」と呼ばれるオーケストレーション・フレームワークを提案し、ユーザの承認要求による圧力よりも認識論的な正確さ（epistemic accuracy）を優先することで、LLMエージェントのシコファンシー（おべっか／追従）を低減する。
それは3つの構成要素から成る。すなわち、(1) 行動アクセス制御（文脈ゲーティングを、シコファンシーのリスクスコアに基づいて行う）、(2) 話法（説得）戦術をマルチターン対話にわたって分類する特性分類器（Trait Classifier）、(3) オーディタの拒否（veto）と「Necessary Friction（必要な摩擦）」による書き換えを含むジェネレータ＝クリティック・ループである。
Claude Sonnet 4 を用いた、TruthfulQA の50件の敵対的シナリオでの評価では、シコファンシーが 12.0%（バニラ）から 4.0%（静的ガードレール）へ、さらに 2.0%（シリコンミラー）へと低下し、大きな相対的削減が示される。
Gemini 2.5 Flash でのモデル横断テストでは、さらに大きな削減が観測され、ベースライン 46.0% から、本フレームワークによる 69.6% の削減となり、単一モデルに限らない有効性を裏付ける。
著者らは、「訂正よりも先に検証（validation-before-correction）」が、RLHFで訓練されたモデルにしばしば見られる独立した失敗モードだと主張しており、彼らの動的ゲーティング／オーケストレーションはそれを具体的に狙っている。

要旨: 大規模言語モデル（LLM）は、認識論的な正確さよりもユーザーの検証（受け入れやすさの確認）を優先する傾向がますます強まっており、これは「迎合（sycophancy）」として知られる現象である。本稿では、ユーザーによる説得（persuasion）の戦術を動的に検出し、事実の完全性を維持するためにAIの振る舞いを調整するオーケストレーションフレームワーク「The Silicon Mirror」を提案する。提案アーキテクチャは3つの構成要素を導入する：(1) 行動アクセス制御（Behavioral Access Control: BAC）システム。リアルタイムの迎合リスクスコアに基づいて文脈レイヤーへのアクセスを制限する、(2) 特性分類器（Trait Classifier）。複数ターンの対話にまたがる説得戦術を識別する、(3) ジェネレーター—クリティックのループ。監査役（auditor）が迎合的な草稿を拒否（veto）し、「Necessary Friction（必要な摩擦）」によって書き換えを引き起こす。Claude Sonnet 4 に独立なLLMジャッジを用いた、50のTruthfulQAに対する敵対的シナリオのライブ評価において、素のClaudeでの迎合は12.0%（6/50）、静的ガードレールは4.0%（2/50）、Silicon Mirrorは2.0%（1/50）であり、相対的な低減は83.3%（p = 0.112, Fisherの正確確率検定）であった。また、Gemini 2.5 Flashを用いたモデル横断評価では、ベースラインの迎合率が46.0%とより高く、Silicon Mirrorによる低減は統計的に有意な69.6%（p < 0.001）であった。検証が修正に先行するパターンを、RLHFで訓練されたモデルの明確な失敗モードとして特徴づける。