知覚と推論をつなぐ:マルチモーダルLLMにおけるRLVRのためのトークン再重み付け
arXiv cs.CV / 2026/3/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、検証可能な報酬を用いる強化学習(RLVR)をマルチモーダルLLMへ拡張する際に、知覚に基づくトークンと推論チェーンのトークンが混在する出力が複雑さを生む点を検討する。
- トークン単位の実験により、知覚関連トークンのみ、または推論関連トークンのみを最適化するだけでは、系列全体を共同で最適化する場合よりも性能が悪化することが示され、両能力の間に強い結合(カップリング)が存在することが示唆される。
- 重要な知覚トークンと推論トークンを特定し、RLVR学習中にそれらを動的に再重み付けして相互依存をモデル化する、プラグアンドプレイ型のToken-Reweighting(ToR)手法を提案する。
- ToRは、既存のRLVRスタイルの手法(GRPOやDAPOなど)と組み合わせることで、複数のマルチモーダル推論ベンチマークにわたって一貫した向上が得られる。
- 本アプローチは、正確な視覚的グラウンディングと首尾一貫した推論の両方を維持しつつ、最先端の結果を達成すると報告されている。