MOSAIC: モジュール化された制御トークンによる組み合わせ可能な安全性整合

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

MOSAICは、個々の安全性制約をエンコードし、凍結されたバックボーンモデル上で推論時に活性化・組み合わせることができる学習可能な制御トークンに基づく、モジュール型の安全性整合フレームワークを提案する。
静的パラメータレベルの安全ポリシーとプロンプトベースの手法の限界に対処し、ユーザー、地域、およびアプリケーション間で文脈依存の安全性を実現する。
学習には順序ベースのタスクサンプリングと分布レベルの整合目標を用い、効率を向上させ、過度の拒否を抑えつつモデルの有用性を維持する。
実験は、従来のアプローチと比較して、過度な拒否を大幅に低減しつつ強力な防御性能を達成することを示している。

要旨: 大規模言語モデル（LLMs）における安全性の整合性は、一般にモデルパラメータに埋め込まれた単一の静的ポリシーとして実装されます。しかし、実世界のデプロイメントでは、ユーザー、地域、アプリケーションごとに異なるコンテキスト依存の安全ルールが求められることがあります。既存のアプローチは、そのような条件付き制御を提供するのに苦労します。パラメータレベルの整合は安全挙動と一般的な能力を絡み合わせてしまい、プロンプトベースの方法は自然言語指示による弱い執行力に依存します。私たちは MOSAIC を提案します。これは、凍結されたバックボーンモデル上で最適化された学習可能な制御トークンを通じて、組成的な安全性整合を実現するモジュール式フレームワークです。各トークンは安全制約を表し、推論時に柔軟に有効化・組み合わせることができます。構成的なトークンを効率的に訓練するため、順序ベースのタスクサンプリングと過剰拒否を抑制する分布レベルの整合性目的を導入します。実験の結果、MOSAIC は高い防御性能を達成し、過剰拒否を著しく低減しつつ、モデルの有用性を維持することを示しました。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

MOSAIC: モジュール化された制御トークンによる組み合わせ可能な安全性整合

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer