LLMにおける道徳的感度:行動プロファイリングとメカニズム解釈に基づく文脈依存バイアスの階層評価
arXiv cs.LG / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、既存のLLMバイアス評価が「偏っている/偏っていない」という二値的な見方に留まっており、バイアスがどのように段階的かつ文脈依存で生じるかを捉えきれていないと主張している。
- 行動プロファイリングの段階で、7段階のストレステストを導入し、さらにMoral Sensitivity Index(MSI)により、偏った出力が生じる確率を段階的に定量化する。
- 主要モデル(Claude 3.5、Qwen 3.5、Llama 3、Gemini 1.5)を評価した結果、アラインメント設計によって異なる行動上の特徴が現れ、例としてGemini 1.5は社会経済的不正文脈でTier 5時点までにMSIが72.7%に達し、Claudeはアイデンティティベースの安全性訓練に整合する形で強く抑制された。
- 次に、logit lens、注意分析、活性化パッチング、セマンティック・プロービングなどを用いて、行動的に観測されたパターンをメカニズム面で検証し、バイアスが「U字型」に変化することを示す。
- 具体的には、SLMでは犯罪バイアスが強いが、instruction-tunedモデルでは消失し、同一パラメータ数でも推論蒸留によりSLMに近い水準へ再びバイアスが戻ることを報告している。



