サブスペース制御:制約付きモデル・ステアリングを制御可能なスペクトル最適化へ

arXiv cs.LG / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、基盤モデルに対する「制約付き」モデル・ステアリング(例:安全性、プライバシー、タスク要件)を最適化することが難しい理由を扱っている。主目的の勾配と制約目的の勾配が互いに干渉し合うためである。
  • モデル・マージ/スペクトルの観点から説明し、スペクトル的なタスク間干渉がなぜ起こるのかを示したうえで、マージされたサブスペースに対する一度きりの直交化(orthogonalization)によってそれに対処できると主張する。
  • 著者らは、この直交化の考え方をスペクトル・オプティマイザである Muon における勾配の直交化と結び付け、自らの訓練手法の基礎を形成する。
  • SIFT(spectral interference-free training)を提案する。これは最適化中に局所化/介入(localization/intervention)スキームを用いて、目的—制約の衝突を低減する制御可能な更新を生成する。
  • 4つの応用(機械アンラーニング、安全アライメント、テキスト・トゥ・スピーチ適応、ハルシネーション緩和)に対する実験では、SIFTが制御ベースおよび制御フリーのベースラインに対して一貫して優れており、コードはGitHubで公開されている。

要旨: 大規模言語モデル(LLM)のような基盤モデルは強力ですが、安全性、プライバシー、そしてタスク固有の要件といった実用上の制約を満たすために、しばしば展開前のカスタマイズが必要となり、その結果、モデルの誘導(steering)や適応に対する「制約付き」最適化問題が生じます。しかしながら、そのような問題の解決は、いまだ十分に研究されておらず、特に、最適化中に主要な目的と制約目的との干渉が起こるために難しいものとなっています。本論文では、制約付きモデル学習のための部分空間制御(subspace control)フレームワークを提案します。具体的には、(i) まずモデル統合(model merging)の観点から、スペクトルにおけるタスク間干渉がどのように生じるかを分析し、それが統合された部分空間を直交化するワンショット解によって解決可能であることを示します;(ii) この解と、スペクトル最適化器 Muon における勾配の直交化(gradient orthogonalization)との間の関連を確立します;(iii) これらの知見に基づき、SIFT(spectral interference-free training)を導入します。これは、局所化スキームを活用して最適化中に選択的に介入し、目的と制約の対立を緩和する制御可能な更新を可能にします。SIFTを、4つの代表的な応用((a) 機械アンラーニング、(b) 安全アラインメント、(c) テキストから音声への適応、(d) 幻覚の抑制)で評価します。制御ベースおよび制御なしの両方のベースラインと比べて、SIFTはすべてのタスクにおいて、一貫して実質的かつ頑健な性能向上を達成します。コードは https://github.com/OPTML-Group/SIFT で利用可能です。