思考モデルにおけるリアルタイム視覚アトリビューション・ストリーミング

arXiv cs.CV / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、マルチモーダルな「思考」モデルにおいて、推論の長い痕跡を視覚的根拠（例：スクリーンショットからのコード生成、画像からの数学問題の解法）に結び付けることを目的とした、リアルタイム視覚アトリビューション・ストリーミングのための償却（amortized）フレームワークを提案している。
本研究は重要なトレードオフに対処しており、因果的に忠実なアトリビューションはバックワード計算の反復や摂動を要するため高コストである一方、アテンションマップは即時性があるものの因果的妥当性に欠ける点を解決しようとしている。
提案手法は、注意機構から得られる豊富な特徴を用いて意味領域の因果効果を推定することを学習し、徹底的な因果推定を“総当たり”で行う代わりにする。
5つのベンチマークと4つの思考モデルでの実験では、徹底的な因果手法と同等に近い忠実性を示しつつ、生成後ではなく推論の途中でユーザーが根拠の証拠をストリーミング表示できることを明らかにしている。
著者らは、マルチモーダル推論におけるリアルタイムで因果的に忠実なアトリビューションは、大規模な計算ではなく軽量な学習によって実現できると結論づけている。