Cat-DPO：カテゴリ適応型セーフティ・アラインメント

arXiv cs.CL / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、多くの嗜好（パレフェレンス）ベースのLLM安全性手法が安全性を単一のグローバルなスカラーとして扱うため、平均的には安全に見えても一部の少数の害カテゴリでモデルが相対的に危険なままになり得ると指摘している。
Cat-DPOは、カテゴリごとの制約付き最適化を行い、害カテゴリごとに適応的な安全マージンを持たせるダイレクト・プレファレンス・オプティマイゼーション手法として提案されている。
安全でない応答が特定カテゴリで続く場合はマージンを締め、モデルが追いつくとマージンを緩めることで、学習信号が全体平均ではなく各カテゴリの現在の難しさに追随する。
2つのLLMバックボーンと6つの嗜好学習ベースラインでの実験により、総合的な有用性と無害性の向上、カテゴリ別の安全性ばらつきの縮小、最良〜最悪のギャップの低減が示されている。
Cat-DPOは、ダイレクト・プレファレンスに基づく安全アラインメントをカテゴリごとに改善する「ドロップイン」型の改良として位置づけられている。

要旨: 大規模言語モデルを人間の嗜好に合わせるには、2つの相反する目的のバランスを取る必要がある。すなわち、正当な要求に対して有益に応答することと、有害なものには確実に拒否することだ。嗜好に基づく安全アライメントの多くの手法は、安全性を単一のスカラーに折りたたみ、それをすべての嗜好ペアに一様に適用してしまう。その結果、平均すると安全に見える一方で、少数の危害カテゴリでは依然として相対的に安全でないモデルとなる。そこで我々は、安全アライメントをカテゴリごとの制約付き最適化問題として定式化し、各危害カテゴリごとに別々の適応的安全マージンを持つ直接嗜好最適化アルゴリズムであるCat-DPOを導出する。このマージンは、そのカテゴリでモデルがまだ危険な応答を生成している間は締まり、モデルが追いつくと緩む。これにより、学習信号は全体の一つのグローバルな率で平均化するのではなく、各カテゴリの現在の難しさを追跡できる。2つのLLMバックボーンと6つの嗜好学習ベースラインにおいて、Cat-DPOは、総合的な有益さと無害さを改善し、カテゴリごとの安全性のばらつきと最良から最悪のギャップを圧縮する。これにより、直接嗜好による安全アライメントをカテゴリごとにそのまま差し込んで改善できる。