アブストラクト: 近年の研究により、モデルの入力語埋め込みが、望ましい特性を満たす出力へとその挙動を誘導するための有効な制御変数として機能し得ることが示されてきました。 しかし、このことが実証されているのは、比較的単純な目的、すなわち短い継続における表面上のわいせつ表現(プロファニティ)を減らすこと、に対する学習済みのテキスト補完モデルに限られていました。 自然で実務上重要な疑問は、入力埋め込みが、整合されたモデル(アラインされたモデル)をどの程度まで制御できるのか、という点です。 整合されたモデルは、オープンエンド生成に特徴的な滑らかな分布ではなく、拒否(refuse)か従う(comply)かの二峰性で不均衡な出力分布を生成します。 本研究では、安全性の文脈でこの点を検討し、入力語埋め込みをサブ語彙的(sub-lexical)な方法で最適化することで、整合されたモデルの応答の意味的な有害性を最小化できることを示します。 提案手法は、入力語埋め込みに関してブラックボックスのテキスト・モデレーションAPIのゼロ次の勾配推定を行い、その後、生成テキストの有害性を最小化するために、これらの埋め込みに対して勾配降下法を適用します。 実験の結果、提案手法は標準的な安全性ベンチマークにおいて、安全上のフラグが立てられたすべての応答を無力化できることが示されました。
テスト時の安全アラインメント
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、入力語埋め込みが、先行研究で行われた単純な不適切語の抑制(短い補完)を超えて、「アラインされた」言語モデルの挙動をどれほど確実に安全な出力へ誘導できるかを検証します。
- 提案手法では、拒否/従うという二峰性の出力分布になりやすいアライン済みモデルに対し、応答の意味的な有害性を下げるために埋め込みをサブレキシカル(部分的語彙単位)に最適化します。
- 手法はテキスト・モデレーションAPIをブラックボックスとして扱い、入力埋め込みに関するゼロ次勾配推定を行ったうえで、生成テキストの有害性を最小化するように勾配降下を適用します。
- 標準的な安全ベンチマークで、セーフティ検知によりフラグ付けされた全ての応答を無力化できることが実験で示され、安全性結果を強く制御できる可能性が示唆されます。




