あなたと“見ること”:マルチモーダル推論のための知覚・推論の共進化
arXiv cs.AI / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLM向けの既存RLVR手法がしばしば最終回答に対する単一の報酬を用いており、クレジット割当(credit-assignment)の問題を引き起こすため、推論は改善しても視覚的な証拠抽出が確実に向上しないと主張する。
- PRCO(Perception-Reasoning Coevolution:知覚・推論の共進化)を提案する。共有ポリシーを用いた二重役割のRLVRフレームワークであり、Observer(観察者)が質問ごとの証拠キャプションを生成し、Solver(解答者)がそれを用いて最終回答を予測する。
- PRCOは役割ごとに異なる報酬を用いる。Solverには最終回答から検証可能な成果報酬が与えられ、Observerには下流タスクでSolverがどれだけ成功したかに基づく有用性報酬が与えられる。
- 8つのマルチモーダル推論ベンチマークでの実験では、PRCOはモデル規模をまたいでベースモデルに対し平均精度を7ポイント以上改善することが示される。
- 本アプローチは、従来のオープンソースのRL調整ベースラインを上回り、マルチモーダル課題において知覚と推論をより信頼性高く同時に学習(co-train)する方法であることを示唆している。




