離散・連続の方策最適化を分離したハイブリッド潜在推論
arXiv cs.CV / 2026/4/23
📰 ニュースModels & Research
要点
- 本論文は、視覚に対してチェーン・オブ・ソート(CoT)推論を適用すると、視覚信号をLLM入力向けに離散化することで「早期のセマンティック・コラプス」が起き、微細な情報が失われ得ると指摘している。
- その解決として、HyLaR(Hybrid Latent Reasoning)では、離散的なテキスト生成と連続的な視覚潜在表現を交互に扱い、詳細な視覚情報の保持を狙っている。
- まず初期の教師あり微調整(SFT)によるコールドスタートの後、ハイブリッドな離散・連続アクション空間で強化学習を行うためにDePO(Decoupled Policy Optimization)を提案している。
- DePOは方策勾配目的を分解し、テキスト成分と潜在成分それぞれに独立した信頼領域(trust-region)制約を適用し、さらにvon Mises-Fisher(vMF)のKL正則化を閉形式で導入することで学習安定性を高める。
- 実験では、HyLaRが微細な知覚と一般的なマルチモーダル理解のベンチマークで、標準的なMLLMや既存の潜在推論手法を上回ると報告されており、コードもGitHubで公開されている。




