要旨: 言語モデルのポストトレーニング適応は一般に、パラメータ更新、または微調整、パラメータ効率の高い適応、プロンプトといった入力ベースの手法によって実現されます。これと並行して、推論時に内部活性を変更してモデルの挙動に影響を与える、いわゆるステアリングというアプローチに関する研究も増えてきています。使用は増加しているにもかかわらず、ステアリングは、確立された適応手法と同じ概念的枠組みの中で分析されることは稀です。
本研究では、ステアリングはモデル適応の一種として捉えるべきだと主張します。適応手法のための一連の機能的基準を導入し、それを用いてステアリング手法を古典的な代替手法と比較します。この分析により、ステアリングは活性空間における標的化された介入に基づく、独立した適応パラダイムとして位置づけられます。そこでは、パラメータ更新を伴わずに、局所的で可逆的な挙動変化が可能です。得られた枠組みにより、ステアリングが既存の手法とどのように関係しているかが明確になり、モデル適応のための統一的な分類体系(タクソノミー)を動機づけます。
重みから活性へ:適応の次のフロンティアを切り開く「ステアリング」とは?
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時の内部活性に対する「ステアリング」を、別個の手法としてではなく、ポストトレーニングのモデル適応の一形態として理解するのが最も適切だと主張する。
- 適応手法を分類するための機能的な基準を提案し、それを用いて、ステアリングを、パラメータ更新や入力ベースの手法(ファインチューニング、パラメータ効率的適応、プロンプティングなど)と比較する。
- 著者らは、ステアリングを、モデルのパラメータを更新せずに、活性空間における狙いを定めた局所的な介入によって振る舞いを変える、独立した適応パラダイムとして位置づける。
- 本研究は、ステアリングがより局所的で、場合によっては可逆的な振る舞いの変更を可能にすると主張し、さらに、ステアリングを既存の適応手法に結び付ける統一的な分類法(タクソノミー)を動機づける。
