要旨: 推論時のLLMアラインメント手法、特にアクティベーション・ステアリングは、生成中にアクティベーションを直接修正することで微調整の代替となる手法を提供します。しかし、既存の手法はしばしば、変動(摂動)がトランスフォーマ層を通じてどのように伝播するかを無視する非予見的な介入に依存しており、さらにオンラインでの誤差フィードバックも欠如しているため、最適でない、オープンループな制御になっています。これに対し、本稿では、トランスフォーマ・ブロックの非線形な構造にもかかわらず、複数のLLMアーキテクチャおよびスケールにわたる層ごとのダイナミクスが局所線形モデルにより十分に近似できることを、実証的に示します。この性質を活用し、LLM推論を線形・時間変化する動的システムとしてモデル化し、古典的な線形二次レギュレータを適応させて、層ごとのヤコビアンを用いるフィードバック制御器を計算します。これにより、計算オーバーヘッドを最小限に抑え、オフライン学習なしで、望ましい意味上のセトポイントへとアクティベーションを閉ループで誘導できます。さらに、セトポイント追跡誤差に関する理論的な上界を導出し、誘導(ステアリング)性能について形式的な保証を可能にします。新規な適応型セマンティック特徴のセトポイント信号を用いることで、本手法は、モデル、スケール、タスクをまたいで頑健かつきめ細かな挙動制御を実現し、毒性、真実性、拒否、任意の概念に対する最先端のモジュレーションを含め、ベースラインのステアリング手法を上回ります。コードは以下で公開しています: https://github.com/trustworthyrobotics/lqr-activation-steering
LLMの局所線形性によりモデルベース線形最適制御でアクティベーション・ステアリングを可能にする
arXiv cs.LG / 2026/4/22
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、非先読みのオープンループ介入に頼る既存の活性ステアリングを、生成時のオンライン誤差フィードバックを組み込む制御問題として改善することを提案しています。
- 変圧器ブロックは非線形ですが、複数のLLMアーキテクチャとモデル規模にわたる層ごとのダイナミクスが局所線形モデルでよく近似できることを実証しています。
- 層ごとのヤコビアンを用いて線形二次レギュレータ(LQR)を適用し、低い計算オーバーヘッドでオフライン学習なしに、活性を目標となる意味セットポイントへフィードバック制御で誘導します。
- セットポイント追跡誤差に関する理論的な上界も導出し、適応的な意味特徴のセットポイント信号と合わせて、タスクをまたいだ頑健で細かな挙動制御を実現しています。
- 実験では、有害性、真実性、拒否、任意の概念への誘導といった振る舞いの調整で既存のステアリング手法を上回る結果が報告され、コードもGitHubで公開されています。




