拒否トリガーの無効化: 安全性整合における過剰拒否の理解と緩和

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性整合済みのLLMにおける過剰拒否を調査し、拒否の手掛かりの学習方法が、モデルが安全性整合後に無害なクエリを拒否する可能性を生み出すことを示す。
  • 拒否の手掛かりを、訓練データ中の言語的手掛かりとして定義し、安全性整合は訓練サンプル内の拒否手掛かりを拒否応答と結びつけるよう促すため、過剰拒否を招く。
  • 著者らは、有害入力への防御と無害なクエリへの応答性のバランスを取るため、拒否の手掛かりを考慮した安全性整合の微調整時の緩和戦略を提案する。
  • 実証的な結果は、提案手法がジャイルブレイク攻撃への耐性と無害なクエリに対する有用性のトレードオフを改善し、既存の手法を上回ることを示す。ただし、本論文には有害で偏った文が含まれているとの警告がある。
本文: arXiv:2603.11388v1 アナウンス種別: new 要旨: 安全性整合は、大規模言語モデル(LLMs)が有害なリクエストを拒否するように、拒否応答と対になった有害なクエリを用いた訓練後の学習を通じて達成される。産業界で広く採用されている一方で、安全性整合後に整合済みのLLMsが無害なクエリも拒否してしまう過剰拒否の問題は、十分に研究されていない。こうした問題は、安全性整合の現実世界での有用性を低下させる。本論文では、安全性整合の下で過剰拒否がどのように生じるかを検討し、我々の知見に触発された緩和戦略を提案する。拒否の手掛かりを、訓練データ中の拒否応答を引き起こす言語的手掛かりとして定義し、安全性整合は訓練サンプル内の拒否の手掛かりを拒否応答と関連付けるようLLMsを促す。その結果、整合済みLLMsは有害なクエリを拒否するようになる。しかし、拒否の手掛かりには有害な語彙だけでなく非有害な語彙も含まれるため、無害なクエリに対する過剰拒否を引き起こす。 この機械的分析に基づき、安全性整合の微調整時に拒否の手掛かりを明示的に考慮する方法を提案する。実証的な結果は、我々のアプローチがジャイルブレイク攻撃への防御と無害なクエリへの応答性のバランスをより良く達成し、従来の方法より優れていることを示している。警告: 本論文には有害で偏った文が含まれている。