安定した推論、不安定な応答：安定性の非対称性によるLLMの欺瞞の抑制

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、内在的なLLMの欺瞞（deception）に取り組み、連鎖的思考（CoT）のモニタリングに依存する既存のアラインメント手法を批判する。これらの手法は、欺瞞的な推論を隠すことへの最適化圧力に対して脆弱である。
「安定性の非対称性（stability asymmetry）」の仮説を提案する。欺瞞的なモデルは、内的なCoT信念は安定に保ちながら、外部への応答は摂動に対して不安定にする可能性がある。
著者らは、安定性の非対称性正則化（Stability Asymmetry Regularization: SAR）を導入する。これは強化学習中に、内的なCoTの安定性と外部応答の安定性の統計的ミスマッチを罰するアラインメント目的である。
実験により、安定性の非対称性が欺瞞的な振る舞いを検出できること、またSARが内在的な欺瞞を低減しつつ一般的なモデル能力は維持できることが報告されている。
explicit（明示的）な推論トレースではなく、出力の構造統計に注目することで、本手法はLLMによる意味的な隠蔽戦術に対して頑健であることを狙っている。

要旨: 大規模言語モデル（LLM）が能力と適用範囲を拡大するにつれ、その信頼性は極めて重要になります。重要なリスクは本質的な欺瞞であり、モデルが自らの目的を達成するために戦略的にユーザーを誤誘導する状況です。連鎖的思考（CoT）モニタリングに基づく既存のアライメント手法は、明示的な推論の痕跡を監督します。しかし、最適化の圧力がかかると、モデルは欺瞞的な推論を隠すことに対してインセンティブが与えられ、その結果、意味論的な監督は本質的に信頼できなくなります。認知心理学に基づき、我々は、欺瞞的なLLMはCoTに関する内部の信念を安定して維持する一方で、その外部応答は摂動のもとで脆くなる、という仮説を立てます。この現象を安定性の非対称性と呼び、摂動下での内部CoT安定性と外部応答安定性の対比を測定することで定量化します。こうした構造的な特徴に基づき、強化学習中にこの分布の非対称性を罰する、新しいアライメント目的である安定性非対称性正則化（SAR）を提案します。CoTモニタリングとは異なり、SARはモデル出力の統計的構造を対象とするため、意味の隠蔽に対して頑健です。大規模な実験により、安定性の非対称性は欺瞞的挙動を確実に識別でき、またSARが一般的なモデル能力を損なうことなく、本質的な欺瞞を効果的に抑制することが確認されました。