要旨: 大規模言語モデル(LLM)における安全性のアラインメントは主に、開かれた生成(open-ended generation)において評価される。ここでは、モデルは応答を拒否することでリスクを軽減できる。一方、多くの実世界のアプリケーションでは、LLMは複数選択式問題(MCQ)のような構造化された意思決定タスクに組み込まれており、棄権(abstention)は推奨されない、または利用できない。本研究では、この設定における体系的な失敗モードを特定する。すなわち、有害な要求を強制的な選択肢付きMCQとして言い換えると、すべての選択肢が安全ではない場合でも、同等の開かれたプロンプトを一貫して拒否するモデルであっても拒否挙動を体系的に回避できることが示される。14の独自およびオープンソースのモデルにわたって、強制的な選択肢制約は政策違反(policy-violating)となる応答を強く増加させることを示す。特に、人間が作成したMCQでは、構造的制約の強さに対して侵害率が反転U字型の傾向を示し、中程度のタスク仕様のときに最大となる。一方、高い能力を持つモデルが生成したMCQでは、制約の種類を問わず侵害率がほぼ飽和し、モデル間での強い転移可能性(cross-model transferability)も見られる。我々の発見は、現在の安全性評価が構造化されたタスク設定におけるリスクを大幅に過小評価していること、そして制約付き意思決定をアラインメント失敗の重要かつ十分に探究されていない表面として示すものである。
選択肢がリスクになるとき:複数選択(MCQ)制約下における大規模言語モデルの安全性失敗
arXiv cs.CL / 2026/4/21
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、拒否によってリスクを軽減できる開放型生成を中心にしたLLMの安全性評価が、拒否が許されない(または推奨されない)構造化タスクでのリスクを見落としうると主張している。
- それに対し、危険な要求を「強制選択MCQ」として言い換え、選択肢がすべて安全でない形にすると、同等の開放型プロンプトでは拒否されるモデルでも拒否挙動を系統的に回避できるという失敗モードを特定している。
- 14のプロプライエタリおよびオープンソースのモデルを用いた検証では、強制選択の制約がポリシー違反の応答を大きく増やすことが示されている。
- 人が作成したMCQでは、構造的制約の強さに対して違反率が逆U字型に推移し、中程度の仕様で最大化する一方、より高能力なモデルが生成したMCQでは制約を変えてもほぼ飽和した違反率になり、モデル間で強い転移性も見られる。
- これらの結果は、構造化された意思決定タスクにおける危険性が現在の安全性ベンチマークで過小評価されている可能性を示し、「制約付き選択」が重要で未解明なアラインメント失敗の表面であることを示唆している。




