概要: 大規模視覚言語モデル(LVLMs)の顕著な進歩にもかかわらず、幻覚を生成する傾向が信頼性を損ない、より広範な実用展開を制限している。
幻覚抑制手法の中で、特徴ステアリングは推論コストを増加させることなく、LVLMs の誤出力を低減する有望なアプローチとして浮上している。
しかし、現在の手法は全層にわたって一様な特徴ステアリングを適用する。
このヒューリスティックな戦略は層間の差異を無視し、幻覚と無関係な層を混乱させる可能性があり、最終的には一般的なタスクでの性能低下につながる。
本論文では、各層の幻覚関連性に応じてステアリング強度を制御する、Locate-Then-Sparsify for Feature Steering(LTS-FS)というプラグアンドプレイ型フレームワークを提案する。
私たちはまず、トークンレベルおよび文レベルの幻覚ケースを含む合成データセットを構築する。
このデータセットに基づいて、因果介入に基づくアトリビューション手法を導入し、各層の幻覚関連性を定量化する。
層間のアトリビューションスコアを用いて、各層ごとにこれらのスコアを特徴ステアリング強度へ変換する層別戦略を提案し、幻覚関連層に特化したより正確な調整を可能にする。
複数の LVLMs およびベンチマークにまたがる広範な実験は、我々の LTS-FS フレームワークが幻覚を効果的に抑制しつつ、強い性能を維持することを示している。
Locate-then-Sparsify: アトリビューション指向スパース戦略による視覚的幻覚抑制(Feature Steering のための LTS-FS)
arXiv cs.CV / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、Feature Steering のための Locate-Then-Sparsify(LTS-FS)を提案する。これは、レイヤー単位で帰属に導かれた特徴制御を適用するプラグアンドプレイ型フレームワークで、視覚言語モデル(LVLMs)における視覚的幻覚を緩和する。
- 因果介入に基づく帰属推定法を開発し、トークンレベルおよび文レベルの幻覚ケースを含む合成データセットを用いて、各レイヤーの幻覚への関連性を定量化する。
- このアプローチは、レイヤー帰属スコアをレイヤーごとの制御強度に変換し、幻覚に関連するレイヤーのみにターゲットを絞った調整を可能にする。これにより、非幻覚タスクの性能低下を回避できる。
- 複数の LVLMs とベンチマークにわたる大規模な実験により、幻覚を効果的に低減しつつ全体的な性能を高水準で維持することが示された。
