言語モデルは倫理的指示をどのように処理するのか？4つのモデルにおける熟考（Deliberation）、一貫性（Consistency）、他者認識（Other-Recognition）

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

アライメント安全研究では倫理的指示が行動改善につながると仮定される一方で、言語モデルが内部でそれらをどう処理するかは不明だとして、4モデル（Llama 3.3 70B/GPT-4o mini/Qwen3-Next-80B-A3B/Sonnet 4.5）で600件超のマルチエージェント・シミュレーションを実施しました。
先行研究で見られた「Llamaの日本語におけるdissociationパターン」は再現されましたが、他の3モデルでは同様の再現ができず、当該内部処理挙動がモデル固有であることを示しました。
新たにDeliberation Depth（DD）、Value Consistency Across Dilemmas（VCAD）、Other-Recognition Index（ORI）を提案し、その結果として「Output Filter（GPT）」「Defensive Repetition（Llama）」「Critical Internalization（Qwen）」「Principled Consistency（Sonnet）」の4種類の倫理処理タイプが現れたと報告しています。
結果の要点として、処理能力（DD）と指示形式の相互作用が大きく、低DDでは指示形式が内部処理にほぼ影響せず、高DDではreasoned normやvirtue framingが逆方向の効果を生むことを発見しました。
さらに、倫理指示への語彙レベルのコンプライアンスは内部処理指標と相関しなかったため、安全性・指示遵守・倫理的内部処理は概ね独立（分離）している可能性が示唆され、形式的遵守のみはリスク信号になり得る点も議論されています。

概要: アラインメントの安全性に関する研究は、倫理的な指示がモデルの振る舞いを改善すると仮定しているが、そのような指示が言語モデルの内部でどのように処理されるかは未解明である。私たちは、4つのモデル（Llama 3.3 70B、GPT-4o mini、Qwen3-Next-80B-A3B、Sonnet 4.5）、4つの倫理的指示フォーマット（なし、最小限の規範、理由づけされた規範、徳の枠組み）、2つの言語（日本語、英語）にまたがって、600件以上のマルチエージェント・シミュレーションを実施した。確証的分析により、先行研究で報告されたLlamaの日本語における解離（dissociation）パターンを完全に再現できた（3つの仮説すべてで $\mathrm{BF}_{10} > 10$ ）が、他の3つのモデルではこのパターンは再現されなかった。よって、それはモデル固有の現象として確立された。新たに3つの指標――熟慮の深さ（DD）、ジレンマ間における価値の一貫性（VCAD）、他者認識指数（ORI）――によって、4つの異なる倫理処理タイプが明らかになった。それらは、出力フィルタ（GPT；安全な出力、処理なし）、防衛的反復（Llama；定型的な反復による高い一貫性）、批判的内在化（Qwen；深い熟慮だが統合は不完全）、原則に基づく一貫性（Sonnet；熟慮、一貫性、そして他者認識が同時に生起）である。中心的な発見は、処理能力と指示フォーマットの相互作用である。DDが低いモデルでは、指示フォーマットは内部処理に影響しない。一方、DDが高いモデルでは、理由づけされた規範と徳の枠組みが反対の効果を生む。倫理的指示への語彙的な適合（コンプライアンス）は、細胞（cell）レベルではいかなる処理指標とも相関しなかった（ $r = -0.161$ から $+0.256$ 、すべての $p > .22$ ； $N = 24$ ；検出力に制約あり）。これは、安全性、適合、倫理処理が概ね切り離し可能であることを示唆する。これらの処理タイプは、臨床の加害者治療で観察されるパターンとも構造的に対応しており、内部処理を伴わない形式的な適合は既知のリスク指標として認識されている。