マルチモーダルなChain-of-Thoughtに対するトークンレベル方策最適化の再考
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のマルチモーダルChain-of-Thought RLVR手法が、推論を粗すぎる粒度で最適化しており、視覚的なグラウンディングの度合いが異なるトークンを区別できていないと主張する。
- 成功するマルチモーダル推論は、知覚的グラウンディングと探索的推論を共同で反映する、構造化されたトークンダイナミクスを示すことを、トークンレベルの分析により明らかにする。
- 提案手法であるPerception-Exploration Policy Optimization(PEPO)は、隠れ状態の類似性から知覚の事前分布を構築し、トークンエントロピーに基づく滑らかなゲーティング機構によってトークンレベルの優位(advantages)を割り当てる。
- PEPOは、追加の教師データや補助的なモデル構成を必要とせず、既存のRLVRフレームワーク(例:GRPOおよびDAPO)にそのまま組み込める。
- 複数のマルチモーダルベンチマークで行った実験では、幾何推論、視覚的グラウンディング、パズル、少数ショット分類といった課題において学習の安定性を保ちながら、強力なRLベースラインに対して一貫した頑健な改善が報告されている。




