静的ビジュアルトークンを超えて：構造化された逐次ビジュアル・チェーン・オブ・ソート推論

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLMに対するSSV-CoTという手法を提案し、静的な「ビジュアル・プレフィックス」の符号化を、画像領域に対する目標駆動で適応的なアクセス・パターンに置き換える。
まず、質問に関連する顕著性（サリエンシー）マップを生成して、視覚的注意が向かうべき場所を明示的に構造化し、その弁別的な順序で推論を行うことで、一次的な手がかりから二次的な手がかりへと進むカリキュラムのような段階的進行を作り出す。
学習は、テキストのCoTと答えの教師信号によってエンドツーエンドで行い、領域レベルの高コストな注釈や、特別な外部ツールを用いない。
複数のビジュアル推論ベンチマークにまたがる実験により改善が報告され、構造化された逐次的な視覚認知が性能を高めるという主張を支持する。
このアプローチは人間の視覚知覚に動機づけられており、推論中に有益な視覚情報を選択するための主要な機構として、注意の移動を捉える。

Abstract

現在のマルチモーダルLLMは、画像を静的な視覚的プレフィックスとして符号化し、テキストベースの推論に依存しているため、目標駆動型で適応的な視覚アクセスを欠いています。人間の視覚知覚に着想を得て、注意が最も有益な領域から二次的な手がかりへ選択的かつ逐次的に移される点に注目し、我々はStructural Sequential Visual CoT（SSV-CoT）を提案します。まず、質問に関連するサリサリティマップが重要な視覚領域を特定し、これらを整理します。これにより、視覚的な重要性の空間的分布を明示的にモデル化します。次に、この識別的な順序に従って推論を行い、主要な手がかりから二次的な手がかりへと至る、カリキュラムのような意味的な進行を誘導します。この手法は、領域レベルの注釈や専用の外部ツールに依存せず、テキストのcotと答えの教師信号を用いて、エンドツーエンドで学習されます。多様な視覚推論ベンチマークに対する実験では改善が示され、構造化された逐次的な視覚的認知が有効であることが検証されました。