要約: 大規模言語モデル(LLMs)は通常、ポストトレーニング整合性(例:RLHFやDPO)によって管理され、展開および推論時にはほぼ静的なポリシーを生み出します。しかし、現実世界の安全性は全ライフサイクルの問題です:静的な防御は進化するジャイルブレイク行動に対して劣化し、固定ウェイトは多元的で時間変動する安全規範に適応できません。これにより、高価な再訓練を要さず挙動を導く推論時ガバナンスが動機づけられます。 この課題に対処するため、システム・プロンプトのルーティングによる適応的な社会的整合のための統一フレームワークとして、Consensus Clustering LinUCB Bandit(CCLUB)を導入します。CCLUBは保守的なコンセンサス・クラスタリング機構を用います:有用性グラフと安全性グラフの類似性の交差部分のデータのみをプールし、意味的に近接していてもリスクが乖離する文脈における安全でない一般化を効果的に防ぎます。我々の理論分析はサブ線形のレグレット保証を導出し、CCLUBのほぼ最適な性能を示しています。広範な実験により、CCLUBが強力なベースラインを上回ることを検証し、累積報酬を10.98%改善し、平均的なサブ最適性ギャップを14.42%低減することを示しています。
凍結済みLLMの誘導:オンラインプロンプトルーティングによる適応的社会的整合
arXiv cs.AI / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 論文は、推論時のガバナンスによって再訓練を伴わずに LLM の安全性を適応させることを提唱し、RLHF のような静的なポストトレーニング・アライメントの限界に対処する。
- Consensus Clustering LinUCB Bandit(CCLUB)を、システム・プロンプト・ルーティングによる適応的社会的整合のための統一フレームワークとして導入する。
- CCLUB は、保守的なコンセンサス・クラスタリング機構を用い、ユーティリティ類似性グラフと安全性類似性グラフの交差部分内のデータのみをプールして、意味的に近接するがリスクが異なる文脈間での不安全な一般化を防ぐ。
- 理論分析はサブ線形のレグレット境界を導出し、実験では CCLUB が累積報酬を 10.98% 改善し、強力なベースラインに対して平均的サブ最適性ギャップを 14.42% 低減することを示した。