分解して観察し推論する：VLM向けの強化された潜在的推論

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、視覚言語モデル（VLM）が複雑な多段階の視覚推論を行う際にしばしば失敗するという重要な限界に取り組む。中間推論をテキストベースの連鎖的思考（CoT）として表すと、その情報が失われ得るためである。
「Decompose, Look, and Reason（DLR）」と呼ばれる強化された潜在的推論フレームワークを提案する。これは、問いをテキストの前提へと分解し、前提に条件付けられた連続的な視覚潜在表現を抽出し、根拠に基づいた推論（grounded rationales）を用いて回答を生成する。
DLRには3段階の学習パイプラインが含まれており、強化学習スタイルの学習中に潜在空間での探索の質を高めるために「Spherical Gaussian Latent Policy（球面ガウス潜在ポリシー）」を導入する。
視覚に特化したベンチマークでの実験では、テキストのみの手法、マルチモーダルCoTのインターリーブ、従来の潜在的推論アプローチなど、複数の強力なベースラインに対して一貫した改善が得られたと報告されており、手順ごとの解釈可能性も向上する。

\emph{"Decompose, Look, and Reason" (DLR)}（分解・注視・推論）を提案します。これは、強化された潜在推論フレームワークであり、クエリをテキストの前提へと動的に分解し、前提に条件付けられた連続的な視覚潜在表現を抽出し、根拠に基づく推論によって答えを導きます。3段階の学習パイプラインを導入し、潜在空間における効果的な探索を可能にする新しいSpherical Gaussian Latent Policy（球面ガウス潜在方策）も提案します。視覚中心のベンチマークに対する大規模な実験により、DLRはテキストのみ、インタリーブされたマルチモーダルCoT、潜在推論手法を含む強力なベースラインに対して一貫して優れた性能を示し、さらにステップごとの解釈可能性においても優れていることが確認されます。

Black Hat Asia

AI Business

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

分解して観察し推論する：VLM向けの強化された潜在的推論

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

NVIDIA、フィジカルAI基盤を支配へ 通信やデジタルツインにも浸透

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

NVIDIA、フィジカルAI基盤を支配へ通信やデジタルツインにも浸透