離散・連続の方策最適化を分離したハイブリッド潜在推論

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本論文は、視覚に対してチェーン・オブ・ソート（CoT）推論を適用すると、視覚信号をLLM入力向けに離散化することで「早期のセマンティック・コラプス」が起き、微細な情報が失われ得ると指摘している。
その解決として、HyLaR（Hybrid Latent Reasoning）では、離散的なテキスト生成と連続的な視覚潜在表現を交互に扱い、詳細な視覚情報の保持を狙っている。
まず初期の教師あり微調整（SFT）によるコールドスタートの後、ハイブリッドな離散・連続アクション空間で強化学習を行うためにDePO（Decoupled Policy Optimization）を提案している。
DePOは方策勾配目的を分解し、テキスト成分と潜在成分それぞれに独立した信頼領域（trust-region）制約を適用し、さらにvon Mises-Fisher（vMF）のKL正則化を閉形式で導入することで学習安定性を高める。
実験では、HyLaRが微細な知覚と一般的なマルチモーダル理解のベンチマークで、標準的なMLLMや既存の潜在推論手法を上回ると報告されており、コードもGitHubで公開されている。

Abstract

Chain-of-Thought（CoT）推論は、マルチモーダル大型言語モデル（MLLMs）の複雑な問題解決能力を大きく高めます。しかし、CoTを視覚に適用する場合、通常は信号を離散化してLLM入力に合わせるため、早期に意味的な崩壊が起き、微細な詳細が捨てられてしまいます。外部ツールでこれを緩和することはできますが、そうしたツールは硬直したボトルネックを導入し、推論をあらかじめ定義された操作に閉じ込めてしまいます。近年の潜在推論パラダイムでは、これらの制約を乗り越えるために視覚状態を内部化することで限界を克服していますが、得られたハイブリッドな離散—連続の行動空間を最適化することは依然として困難です。本研究では、離散的なテキスト生成と連続的な視覚潜在表現をシームレスに織り交ぜる枠組みHyLaR（Hybrid Latent Reasoning）を提案します。具体的には、初期のコールドスタートによる教師あり微調整（SFT）に続いて、このハイブリッド空間上で効果的な強化学習を可能にするためにDePO（Decoupled Policy Optimization）を導入します。DePOはポリシー勾配目的を分解し、テキスト成分と潜在成分それぞれに独立したトラストリージョン制約を適用するとともに、厳密な閉形式のvon Mises-Fisher（vMF）KL正則化項を併用します。大規模な実験により、HyLaRが微細な知覚および汎用的なマルチモーダル理解のベンチマークにおいて、標準的なMLLMおよび最先端の潜在推論アプローチを上回ることが示されます。コードは https://github.com/EthenCheng/HyLaR で公開されています。