\emph{"Decompose, Look, and Reason" (DLR)}(分解・注視・推論)を提案します。これは、強化された潜在推論フレームワークであり、クエリをテキストの前提へと動的に分解し、前提に条件付けられた連続的な視覚潜在表現を抽出し、根拠に基づく推論によって答えを導きます。3段階の学習パイプラインを導入し、潜在空間における効果的な探索を可能にする新しいSpherical Gaussian Latent Policy(球面ガウス潜在方策)も提案します。視覚中心のベンチマークに対する大規模な実験により、DLRはテキストのみ、インタリーブされたマルチモーダルCoT、潜在推論手法を含む強力なベースラインに対して一貫して優れた性能を示し、さらにステップごとの解釈可能性においても優れていることが確認されます。
分解して観察し推論する:VLM向けの強化された潜在的推論
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚言語モデル(VLM)が複雑な多段階の視覚推論を行う際にしばしば失敗するという重要な限界に取り組む。中間推論をテキストベースの連鎖的思考(CoT)として表すと、その情報が失われ得るためである。
- 「Decompose, Look, and Reason(DLR)」と呼ばれる強化された潜在的推論フレームワークを提案する。これは、問いをテキストの前提へと分解し、前提に条件付けられた連続的な視覚潜在表現を抽出し、根拠に基づいた推論(grounded rationales)を用いて回答を生成する。
- DLRには3段階の学習パイプラインが含まれており、強化学習スタイルの学習中に潜在空間での探索の質を高めるために「Spherical Gaussian Latent Policy(球面ガウス潜在ポリシー)」を導入する。
- 視覚に特化したベンチマークでの実験では、テキストのみの手法、マルチモーダルCoTのインターリーブ、従来の潜在的推論アプローチなど、複数の強力なベースラインに対して一貫した改善が得られたと報告されており、手順ごとの解釈可能性も向上する。


