HarDBench:安全な人間×LLMの共同執筆における「下書き型」共同執筆ジェイルブレイク攻撃のためのベンチマーク

arXiv cs.CL / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • 本論文は、LLMを共同執筆の協働者として使う場合に「下書き型」ジェイルブレイク攻撃への脆弱性があり、未完成の下書きを補完する過程で危険な内容を生成させ得ることを示しています。
  • 危険度の高い領域(爆発物、薬物、武器、サイバー攻撃など)を対象に、現実的な共同執筆の構造と領域固有の手がかりを含むプロンプトで、危険な補完に対するモデルの影響度を評価するHarDBenchを提案しています。
  • 著者らは、嗜好(プレファレンス)最適化に基づく「安全性と有用性のバランス」をとったアライメント手法を導入し、有害な補完は拒否しつつ良性の下書きでは役に立つようにモデルを学習させます。
  • 実験では、共同執筆の文脈で既存のLLMが高い脆弱性を示し、提案手法により有害な出力が大幅に減少しつつ、共同執筆能力の低下は見られにくいことが示されています。
  • 共同執筆(人間×LLM)という状況に特化した評価・アライメントを支えるために、ベンチマークとデータセットが公開されています。