カーブボール・ステアリング:正しい方向への操舵は必ずしも線形ではない

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 大型言語モデル(LLM)におけるアクティベーション・ステアリングは、従来、線形表現仮説に基づく線形方向を用いて内部アクティベーションを変更し行動を制御していた。
  • 本研究では、LLMのアクティベーション空間に大きな幾何学的歪みが存在し、線形仮定では一貫した行動制御が不十分であることを発見した。
  • 著者らは、多項式カーネルPCAを用いた非線形手法「カーブボール・ステアリング」を提案し、アクティベーション空間の内在する幾何学を線形手法よりもよく尊重する方法を示した。
  • 実験結果では、特に幾何学的歪みが強い状況で、カーブボール・ステアリングが線形PCAベースのステアリングよりも優れており、LLMの行動操作におけるより原理的なアプローチを提供している。
  • 本研究は既存の仮定に挑戦し、幾何学認識型の介入を導入することで、LLMの制御性向上に寄与する可能性がある。

コンピュータサイエンス > 人工知能

arXiv:2603.09313 (cs)
[2026年3月10日 提出]

題目:Curveball Steering: 操舵(ステア)に正しい方向は常に線形ではない

Shivam Raval ほか5名の著者による論文「Curveball Steering: 操舵(ステア)に正しい方向は常に線形ではない」のPDFを表示
PDFを表示 HTML(実験的)
要旨:アクティベーション・ステアリング(Activation steering)は、内部表現に介入することで大規模言語モデル(LLM)の挙動を制御するために広く用いられている手法である。既存の手法の多くは、行動属性は大域的な線形方向を用いることで操作できると仮定する「線形表現仮説(Linear Representation Hypothesis)」に大きく依存している。しかし実際には、こうした線形介入はしばしば一貫性に欠ける。そこで我々は、LLMアクティベーション空間の内在的な幾何(intrinsic geometry)を解析することで、この仮定を検証する。測地距離とユークリッド距離の比によって幾何歪み(geometric distortion)を測定すると、概念(コンセプト)に依存した大きな歪みが観測され、アクティベーション空間が大域的な線形幾何によって十分に近似されていないことを示唆する。これに動機づけられ、本研究では「Curveball steering」と呼ぶ非線形のステアリング手法を提案する。これは多項式カーネルPCAに基づき、特徴空間で介入を行うことで、学習されたアクティベーション幾何をより適切に尊重する。Curveball steeringは、線形PCAベースのステアリングに対して一貫して優れており、特に幾何歪みが強い領域ではその傾向が顕著である。したがって、幾何を考慮した非線形ステアリングは、大域的な線形介入に対する原理に基づく代替手段となることが示される。
主分野: 人工知能 (cs.AI)
ACM 分類: I.2.6; I.2.7
引用: arXiv:2603.09313 [cs.AI]
  (あるいは、この版については arXiv:2603.09313v1 [cs.AI])
  https://doi.org/10.48550/arXiv.2603.09313
詳細を学ぶためにフォーカス
DataCite 経由で発行された arXiv DOI

提出履歴

発信: Amirali Abdullah [メールを表示]
[v1] 2026年3月10日(火) 07:45:35 UTC (4,089 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.AI
< prev   |   next >
次の形式で閲覧するには:
cs
BibTeXの引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite スマート引用 (スマート引用とは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXivの切り替え
alphaXiv (alphaXivとは?)
コードへのリンクの切り替え
論文向け CatalyzeX コードファインダー (CatalyzeXとは?)
DagsHub トグル
GotitPub トグル
Huggingface トグル
コードへのリンク トグル
ScienceCast トグル
デモ

デモ

Replicate トグル
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
関連論文

レコメンダーと検索ツール

Influence Flower へのリンク
Core レコメンダー トグル
CORE レコメンダー (CORE とは何ですか?)
arXivLabsについて

arXivLabs:コミュニティの協力者とともに行う実験的プロジェクト

arXivLabsは、協力者が当サイト上で新しいarXivの機能を直接開発し、共有できるようにするためのフレームワークです。

arXivLabsに取り組む個人および組織は、開放性、コミュニティ、卓越性、ユーザーデータのプライバシーという私たちの価値観を受け入れ、それを尊重しています。arXivはこれらの価値観に取り組み、それらを遵守するパートナーとのみ協働します。

arXivのコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabsについて詳しく知る

返却形式: {"translated": "翻訳されたHTML"}