テスト時の安全アラインメント

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、入力語埋め込みが、先行研究で行われた単純な不適切語の抑制（短い補完）を超えて、「アラインされた」言語モデルの挙動をどれほど確実に安全な出力へ誘導できるかを検証します。
提案手法では、拒否／従うという二峰性の出力分布になりやすいアライン済みモデルに対し、応答の意味的な有害性を下げるために埋め込みをサブレキシカル（部分的語彙単位）に最適化します。
手法はテキスト・モデレーションAPIをブラックボックスとして扱い、入力埋め込みに関するゼロ次勾配推定を行ったうえで、生成テキストの有害性を最小化するように勾配降下を適用します。
標準的な安全ベンチマークで、セーフティ検知によりフラグ付けされた全ての応答を無力化できることが実験で示され、安全性結果を強く制御できる可能性が示唆されます。

アブストラクト: 近年の研究により、モデルの入力語埋め込みが、望ましい特性を満たす出力へとその挙動を誘導するための有効な制御変数として機能し得ることが示されてきました。しかし、このことが実証されているのは、比較的単純な目的、すなわち短い継続における表面上のわいせつ表現（プロファニティ）を減らすこと、に対する学習済みのテキスト補完モデルに限られていました。自然で実務上重要な疑問は、入力埋め込みが、整合されたモデル（アラインされたモデル）をどの程度まで制御できるのか、という点です。整合されたモデルは、オープンエンド生成に特徴的な滑らかな分布ではなく、拒否（refuse）か従う（comply）かの二峰性で不均衡な出力分布を生成します。本研究では、安全性の文脈でこの点を検討し、入力語埋め込みをサブ語彙的（sub-lexical）な方法で最適化することで、整合されたモデルの応答の意味的な有害性を最小化できることを示します。提案手法は、入力語埋め込みに関してブラックボックスのテキスト・モデレーションAPIのゼロ次の勾配推定を行い、その後、生成テキストの有害性を最小化するために、これらの埋め込みに対して勾配降下法を適用します。実験の結果、提案手法は標準的な安全性ベンチマークにおいて、安全上のフラグが立てられたすべての応答を無力化できることが示されました。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

日経XTECH

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

日経XTECH

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

日経XTECH

Claude Opus 4.7：実際に何が変わったのか、そして移行すべきか

Dev.to

テスト時の安全アラインメント

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み

Claude Opus 4.7：実際に何が変わったのか、そして移行すべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

オープン化で自前主義から脱却も、産業用以外でも人型ロボットは静観

中国がハードもソフトも圧倒的に先行、日本はコア部品の技術で巻き返しへ

光電融合の業界地図、AI需要で「バブルの様相」 日本は光源に強み

Claude Opus 4.7：実際に何が変わったのか、そして移行すべきか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

光電融合の業界地図、AI需要で「バブルの様相」日本は光源に強み