静的ビジュアルトークンを超えて:構造化された逐次ビジュアル・チェーン・オブ・ソート推論
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMに対するSSV-CoTという手法を提案し、静的な「ビジュアル・プレフィックス」の符号化を、画像領域に対する目標駆動で適応的なアクセス・パターンに置き換える。
- まず、質問に関連する顕著性(サリエンシー)マップを生成して、視覚的注意が向かうべき場所を明示的に構造化し、その弁別的な順序で推論を行うことで、一次的な手がかりから二次的な手がかりへと進むカリキュラムのような段階的進行を作り出す。
- 学習は、テキストのCoTと答えの教師信号によってエンドツーエンドで行い、領域レベルの高コストな注釈や、特別な外部ツールを用いない。
- 複数のビジュアル推論ベンチマークにまたがる実験により改善が報告され、構造化された逐次的な視覚認知が性能を高めるという主張を支持する。
- このアプローチは人間の視覚知覚に動機づけられており、推論中に有益な視覚情報を選択するための主要な機構として、注意の移動を捉える。




