要旨: 大規模言語モデル(LLMs)における安全性の整合性は、一般にモデルパラメータに埋め込まれた単一の静的ポリシーとして実装されます。しかし、実世界のデプロイメントでは、ユーザー、地域、アプリケーションごとに異なるコンテキスト依存の安全ルールが求められることがあります。既存のアプローチは、そのような条件付き制御を提供するのに苦労します。パラメータレベルの整合は安全挙動と一般的な能力を絡み合わせてしまい、プロンプトベースの方法は自然言語指示による弱い執行力に依存します。私たちは MOSAIC を提案します。これは、凍結されたバックボーンモデル上で最適化された学習可能な制御トークンを通じて、組成的な安全性整合を実現するモジュール式フレームワークです。各トークンは安全制約を表し、推論時に柔軟に有効化・組み合わせることができます。構成的なトークンを効率的に訓練するため、順序ベースのタスクサンプリングと過剰拒否を抑制する分布レベルの整合性目的を導入します。実験の結果、MOSAIC は高い防御性能を達成し、過剰拒否を著しく低減しつつ、モデルの有用性を維持することを示しました。
MOSAIC: モジュール化された制御トークンによる組み合わせ可能な安全性整合
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- MOSAICは、個々の安全性制約をエンコードし、凍結されたバックボーンモデル上で推論時に活性化・組み合わせることができる学習可能な制御トークンに基づく、モジュール型の安全性整合フレームワークを提案する。
- 静的パラメータレベルの安全ポリシーとプロンプトベースの手法の限界に対処し、ユーザー、地域、およびアプリケーション間で文脈依存の安全性を実現する。
- 学習には順序ベースのタスクサンプリングと分布レベルの整合目標を用い、効率を向上させ、過度の拒否を抑えつつモデルの有用性を維持する。
- 実験は、従来のアプローチと比較して、過度な拒否を大幅に低減しつつ強力な防御性能を達成することを示している。

