概要: ステアリングは、大規模言語モデルを制御するために広く用いられている手法ですが、その効果はしばしば不安定で、予測が難しいです。既存の理論的説明は主として線形表現仮説(LRH)に基づいています。LRHは、制御を損失なく行うために概念を直交化できると仮定していますが、この理想化された写像は実際の表現では成り立たず、ステアリングの観測される予測不能性を説明できません。LRHの直交性の仮定を緩めつつ線形表現は維持することで、概念への寄与が重なり合うことにより、自然にサンプル固有の軸直交構造が得られることを示します。これを円筒表現仮説(CRH)として形式化します。CRHでは、中心軸が概念の不在と存在の主な違いを捉え、概念生成を駆動します。周囲の法線平面は、軸が目標の概念をどれほど容易に活性化できるかを決めることで、ステアリングの感度を制御します。この平面内では、特定の感度の高いセクタのみが概念の活性化を強く促進し、その他のセクタはそれを抑制したり遅延させたりし得ます。周囲の法線平面は差分ベクトルから確実に同定できますが、感度の高いセクタは同定できません。そのため、セクタのレベルで固有の不確実性が生じます。この不確実性は、整合の取れた方向を用いているにもかかわらず、ステアリングの結果がしばしば揺らぐ理由を、原理に基づいて説明します。実験により円筒構造の存在を検証し、CRHが実際の状況におけるモデルのステアリング挙動を解釈するための妥当かつ実用的な方法を提供することを示します: https://github.com/mbzuai-nlp/CRH。
言語モデルのステアリングに関する円筒表現仮説
arXiv cs.CL / 2026/5/5
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、大規模言語モデルのステアリング理論として広く用いられている線形表現仮説(LRH)が、現実の概念表現は必ずしも直交しないために不十分であり、その結果ステアリング効果が不安定で予測しにくくなると主張します。
- そこで、中心軸(概念の不在/存在の主な差分)と、その周囲の法線平面(ステアリング感度を決める要素)からなる円筒状の構造を仮定する「円筒表現仮説(CRH)」を提案します。
- CRHでは、法線平面内の特定の「感度の高いセクター」だけが目標概念の活性化を強く促し、他のセクターは抑制したり活性化を遅らせたりし得ると述べています。
- たとえステアリング方向がうまく整列していても、セクターレベルの不確実性が内在的に生じる仕組みを形式化し、そのためステアリング結果が揺れ動き得る理由を説明します。
- 実験により円筒構造の存在が確認され、CRHが実運用環境でのステアリング挙動を解釈・分析するための実用的な枠組みになり得ることを示したとされています(コードは提示リンク先にあります)。

