AI Navigate

効率的な多様な応答サンプリングによる大規模言語モデルの長尾安全性欠陥の露呈

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、安全性調整が希少な不安全な挙動を依然として見逃す可能性があり、LLMの出力には長尾リスクが残ることを示している。
  • Progressive Diverse Population Sampling (PDPS) を提案する。これは確率的トークンサンプリングと多様性を考慮した選択を組み合わせて、多数の候補応答を生成し、コンパクトで多様なサブセットを保持する方法である。
  • PDPSは、大規模IIDサンプリングと同等のジャイルブレイク成功率を、計算コストをわずか8%から29%に抑えて達成する。さらに、応答制限付きの設定では、IIDサンプリングおよび Diverse Beam Search より成功率を26%から40%改善する。
  • 複数のジャイルブレイクベンチマークとオープンソースのLLMにわたり、PDPSはより多様な不安全な出力を生み出し、検出可能な失敗の範囲を広げる。

要約: 教師ありファインチューニングと人間のフィードバックによる強化学習を通じた安全性の調整は、大規模言語モデル(LLMs)の頑健性を大幅に向上させた。しかし、それはしばしば安全でない挙動を排除するのではなく抑制するだけで、出力分布の長い尾に希少だが重大な不具合を隠してしまう。ほとんどのレッドチーミング作業は対立的なプロンプト探索(入力空間の最適化)を強調する一方で、固定された安全性が重要なプロンプトに対して、さまざまな応答生成(出力空間の探索)を通じて安全性の欠陥を体系的に露出させることができる。応答のサンプル数と多様性を増やすと、ジャイルブレイクの成功率をほぼ1に近づけることができる。こうした欠陥を効率的に発見するために、Progressive Diverse Population Sampling(PDPS)を提案する。これは、確率的なトークンレベルのサンプリングと多様性を意識した選択を組み合わせて、大規模な応答候補プールを探索し、意味的に多様なコンパクトなサブセットを保持する。複数のジャイルブレイクのベンチマークとオープンソースのLLMにわたり、PDPSは大規模 IIDサンプリングと同等の攻撃成功率を達成しつつ、計算コストを8%〜29%しか使用しない。制限応答設定の下では、IIDサンプリングおよび Diverse Beam Searchよりも、成功率を26%〜40%向上させる。さらに、PDPSが生成する応答は安全でない出力の数と多様性の両方を高めており、より広範な欠陥の露出における効果を示している。