凍結済みLLMの誘導：オンラインプロンプトルーティングによる適応的社会的整合

arXiv cs.AI / 2026/3/18

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

論文は、推論時のガバナンスによって再訓練を伴わずに LLM の安全性を適応させることを提唱し、RLHF のような静的なポストトレーニング・アライメントの限界に対処する。
Consensus Clustering LinUCB Bandit（CCLUB）を、システム・プロンプト・ルーティングによる適応的社会的整合のための統一フレームワークとして導入する。
CCLUB は、保守的なコンセンサス・クラスタリング機構を用い、ユーティリティ類似性グラフと安全性類似性グラフの交差部分内のデータのみをプールして、意味的に近接するがリスクが異なる文脈間での不安全な一般化を防ぐ。
理論分析はサブ線形のレグレット境界を導出し、実験では CCLUB が累積報酬を 10.98% 改善し、強力なベースラインに対して平均的サブ最適性ギャップを 14.42% 低減することを示した。

要約: 大規模言語モデル（LLMs）は通常、ポストトレーニング整合性（例：RLHFやDPO）によって管理され、展開および推論時にはほぼ静的なポリシーを生み出します。しかし、現実世界の安全性は全ライフサイクルの問題です：静的な防御は進化するジャイルブレイク行動に対して劣化し、固定ウェイトは多元的で時間変動する安全規範に適応できません。これにより、高価な再訓練を要さず挙動を導く推論時ガバナンスが動機づけられます。この課題に対処するため、システム・プロンプトのルーティングによる適応的な社会的整合のための統一フレームワークとして、Consensus Clustering LinUCB Bandit（CCLUB）を導入します。CCLUBは保守的なコンセンサス・クラスタリング機構を用います：有用性グラフと安全性グラフの類似性の交差部分のデータのみをプールし、意味的に近接していてもリスクが乖離する文脈における安全でない一般化を効果的に防ぎます。我々の理論分析はサブ線形のレグレット保証を導出し、CCLUBのほぼ最適な性能を示しています。広範な実験により、CCLUBが強力なベースラインを上回ることを検証し、累積報酬を10.98%改善し、平均的なサブ最適性ギャップを14.42%低減することを示しています。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

凍結済みLLMの誘導：オンラインプロンプトルーティングによる適応的社会的整合

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer