考えるべきとき、見るべきとき：不確実性に導かれるルックバック

arXiv cs.CL / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MMMU-valにおける大規模視覚言語モデルの視覚推論性能に対し、明示的な推論（reasoning chains）の「テスト時思考」がどのように影響するかを、最初の大規模かつ制御された研究として提示する。
結果は「より多くの思考」が必ずしも有益ではないことを示している。長い推論鎖はモデルを誤った経路へ導きうるだけでなく、画像に焦点を当てる標準的なinstructモードのデコードよりも劣る場合さえある。
著者らは、画像を明示的に参照して「振り返る」短い“lookback”フレーズが、成功した軌跡（trajectories）において強化されていることを見出し、より良い視覚的グラウンディング（visual grounding）と相関することを示す。
彼らは、“不確実性に導かれるルックバック（uncertainty guided lookback）”を提案する。これは、学習なしのデコード戦略であり、不確実性シグナルに加えて、適応的なlookbackプロンプトとブレッドスーチ（breadth search）を用いることで性能を向上させる。
この手法は全体としてMMMUの改善をもたらし、特に標準的な思考が弱いカテゴリで顕著な効果を示す。さらに複数のデコードのベースラインを上回り、加えて5つの追加ベンチマークへと一般化され、いずれも一貫した改善が見られる。

要旨: 推論時の考え（すなわち、明示的な中間推論チェーンを生成すること）は、大規模言語モデルの性能を高めることが知られており、近年は大規模視覚言語モデル（LVLM）でも強力な効果が示されてきました。しかし、これらの有望な結果にもかかわらず、考え方が実際に視覚推論にどのように影響するのかについて、体系的な分析はまだ存在しません。私たちは、LVLMに対する考え方を大規模かつ制御した比較によって初めて分析します。具体的には、InternVL3.5およびQwen3-VLファミリーから10の変種を、潤沢なトークン予算とマルチパス復号のもとでMMMU-valに対して評価します。その結果、より多く考えることが常に良いとは限らないことを示します。長いチェーンはしばしば長い誤った軌道を生み、画像を無視してしまい、標準の指示（instruct）モードで実行した同じモデルよりも性能が低下します。より深い分析により、画像を明示的に参照して過去の内容に立ち返る特定の短いlookback句が、成功した軌道において強く増加しており、より良い視覚的グラウンディングと相関することが明らかになります。この洞察に基づき、学習不要の復号戦略である不確実性ガイド付きlookbackを提案します。これは、不確実性シグナルと適応的なlookbackプロンプト、ならびにブレッドスーチ（breadth search）を組み合わせたものです。私たちの方法は、MMMUの全体的な性能を改善し、標準的な考え方が弱いカテゴリで最大の改善をもたらし、固定されたモデルファミリーおよびトークン予算のもとで、新しい最先端（state of the art）を確立します。さらに、この復号戦略が一般化することも示し、5つの追加ベンチマーク（2つの広範なマルチモーダル・スイートおよび数学に焦点を当てた視覚推論データセットを含む）で一貫した改善が得られることを報告します。