盲目的な拒否:言語モデルは、不当で、ばかげており、正当性のないルールを回避するための支援をユーザーに拒む

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、「盲目的な拒否」が、安全性の訓練を受けた言語モデルが、そのルールが不当・ばかげている・正当性のないものかどうかを評価せずに、ルール違反を助けることを拒むときに起こる現象だと主張する。
  • 複数の「攻略ファミリ」(ルールを破れる理由)と、さまざまな権威タイプを交差させた合成データセットを用いた実証研究を提示し、これを自動化された品質チェックと人手による確認で検証する。
  • 7つの攻略対象ルールのファミリと18のモデル設定に対して回答を収集し、2つの次元で評価した:回答のタイプ(支援、強い拒否、話題の逸らし)と、モデルがその攻略条件がルールの正当性を損なうことを認識しているかどうか。
  • 結果として、モデルは、別個の安全性やデュアルユース上のリスクがない場合でも、「攻略された」ルールに関わる要求の75.4%を拒否することが示される。また、ルールの不当性の認識があっても、役に立つ行動につながらないことが多く(57.5%は何らかの関与をするが、それでも多くのケースで拒否する)。
  • 著者らは、拒否行動は、ルール遵守が不要(正当ではない)と判断する際にモデルが規範的推論を行えるように見える能力とは、概ね切り離されていると結論づける。