「答えるのを拒否して」への対処:大規模言語モデルにおける過剰拒否を適応的コントラスト復号で緩和する

arXiv cs.CL / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • この論文は、安全に整合したLLMにおける「過剰拒否」問題を扱っており、モデルが無害な依頼にも拒否応答を返してしまうことが多い一方で、既存手法では良性クエリで拒否率を低く保ちつつ悪性クエリでは厳格に拒否率を高く保つのが難しい点を示しています。
  • 過剰拒否が起きる場合、非拒否トークンは次トークン候補リストに残っているにもかかわらず、モデルがそれを選択できず、拒否トークンが生成されているのに非拒否側へ移れないという観察結果を提示しています。
  • 著者らは、AdaCD(Adaptive Contrastive Decoding)として、極端に安全寄りのシステムプロンプトの有無で出力分布を対比させることで、拒否の挙動を調整する“学習不要・モデル非依存”の手法を提案します。
  • 推論時の復号過程で、拒否トークン分布を状況に応じて動的に取り入れたり除外したりし、拒否・非拒否トークンの選択確率を適応的に高めます。
  • 5つのベンチマークでの実験では、AdaCDが過剰拒否(無害)クエリの拒否率を平均10.35%低下させる一方、悪性クエリの拒否率は平均0.13%しか増やさないことを示しています。