言語モデルはステアリングによって視覚的特徴を説明できる

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

スパース自己符号化器（Sparse Autoencoders）は多くの解釈可能な視覚特徴を発見できるものの、人手による手動の介入なしにそれらの特徴に対する説明を生成することは、これまで未解決の課題として残っていた。
本論文では、「Steering（ステアリング）」と呼ばれる因果介入（causal-intervention）手法を提案する。これは、Vision-Language Model の構造を用いて、空の画像で視覚エンコーダを操作（steer）し、個々の SAE 特徴を活性化させたうえで、その結果として得られた視覚概念を言語モデルに記述させる方法である。
著者らは、Steering が視覚モデルの特徴を説明するためのスケーラブルな手段を提供し、入力例を最も高く活性化することに基づく説明手法を補完すると報告している。
説明の品質は、言語モデルの規模が拡大するにつれて一貫して改善することが示されており、このアプローチがより大きな LLM の恩恵を受けることを示唆している。
さらに、入力ベースの手法と Steering を組み合わせたハイブリッド手法「Steering-informed Top-k」を導入し、追加の計算コストなしで最先端の説明品質に到達できることを示している。

note

note

note

note

note