コンピュータサイエンス > 人工知能
arXiv:2603.09313 (cs)
[2026年3月10日 提出]
題目:Curveball Steering: 操舵(ステア)に正しい方向は常に線形ではない
Shivam Raval ほか5名の著者による論文「Curveball Steering: 操舵(ステア)に正しい方向は常に線形ではない」のPDFを表示
PDFを表示
HTML(実験的)
要旨:アクティベーション・ステアリング(Activation steering)は、内部表現に介入することで大規模言語モデル(LLM)の挙動を制御するために広く用いられている手法である。既存の手法の多くは、行動属性は大域的な線形方向を用いることで操作できると仮定する「線形表現仮説(Linear Representation Hypothesis)」に大きく依存している。しかし実際には、こうした線形介入はしばしば一貫性に欠ける。そこで我々は、LLMアクティベーション空間の内在的な幾何(intrinsic geometry)を解析することで、この仮定を検証する。測地距離とユークリッド距離の比によって幾何歪み(geometric distortion)を測定すると、概念(コンセプト)に依存した大きな歪みが観測され、アクティベーション空間が大域的な線形幾何によって十分に近似されていないことを示唆する。これに動機づけられ、本研究では「Curveball steering」と呼ぶ非線形のステアリング手法を提案する。これは多項式カーネルPCAに基づき、特徴空間で介入を行うことで、学習されたアクティベーション幾何をより適切に尊重する。Curveball steeringは、線形PCAベースのステアリングに対して一貫して優れており、特に幾何歪みが強い領域ではその傾向が顕著である。したがって、幾何を考慮した非線形ステアリングは、大域的な線形介入に対する原理に基づく代替手段となることが示される。
| 主分野: | 人工知能 (cs.AI) |
| ACM 分類: | I.2.6; I.2.7 |
| 引用: | arXiv:2603.09313 [cs.AI] |
| (あるいは、この版については arXiv:2603.09313v1 [cs.AI]) | |
| https://doi.org/10.48550/arXiv.2603.09313
詳細を学ぶためにフォーカス
DataCite 経由で発行された arXiv DOI
|
書誌ツール
コード、データ、メディア
デモ
関連論文
arXivLabsについて
書誌および引用ツール
書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite スマート引用 (スマート引用とは?)
この記事に関連付けられたコード、データ、メディア
alphaXivの切り替え
alphaXiv (alphaXivとは?)
コードへのリンクの切り替え
論文向け CatalyzeX コードファインダー (CatalyzeXとは?)
DagsHub トグル
DagsHub (DagsHub とは何ですか?)
GotitPub トグル
Gotit.pub (GotitPub とは何ですか?)
Huggingface トグル
Hugging Face (Huggingface とは何ですか?)
コードへのリンク トグル
Papers with Code (Papers with Code とは何ですか?)
ScienceCast トグル
ScienceCast (ScienceCast とは何ですか?)
デモ
Replicate トグル
Replicate (Replicate とは何ですか?)
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
TXYZ.AI (TXYZ.AI とは何ですか?)
レコメンダーと検索ツール
Influence Flower へのリンク
Influence Flower (Influence Flower とは何ですか?)
Core レコメンダー トグル
CORE レコメンダー (CORE とは何ですか?)
arXivLabs:コミュニティの協力者とともに行う実験的プロジェクト
arXivLabsは、協力者が当サイト上で新しいarXivの機能を直接開発し、共有できるようにするためのフレームワークです。
arXivLabsに取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという私たちの価値観を受け入れ、それを尊重しています。arXivはこれらの価値観に取り組み、それらを遵守するパートナーとのみ協働します。
arXivのコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabsについて詳しく知る。




