あなたと“見ること”：マルチモーダル推論のための知覚・推論の共進化

arXiv cs.AI / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダルLLM向けの既存RLVR手法がしばしば最終回答に対する単一の報酬を用いており、クレジット割当（credit-assignment）の問題を引き起こすため、推論は改善しても視覚的な証拠抽出が確実に向上しないと主張する。
PRCO（Perception-Reasoning Coevolution：知覚・推論の共進化）を提案する。共有ポリシーを用いた二重役割のRLVRフレームワークであり、Observer（観察者）が質問ごとの証拠キャプションを生成し、Solver（解答者）がそれを用いて最終回答を予測する。
PRCOは役割ごとに異なる報酬を用いる。Solverには最終回答から検証可能な成果報酬が与えられ、Observerには下流タスクでSolverがどれだけ成功したかに基づく有用性報酬が与えられる。
8つのマルチモーダル推論ベンチマークでの実験では、PRCOはモデル規模をまたいでベースモデルに対し平均精度を7ポイント以上改善することが示される。
本アプローチは、従来のオープンソースのRL調整ベースラインを上回り、マルチモーダル課題において知覚と推論をより信頼性高く同時に学習（co-train）する方法であることを示唆している。

Abstract

検証可能な報酬による強化学習（RLVR）は、多モーダル大規模言語モデル（MLLMs）の推論能力を大幅に向上させてきました。しかし、既存のRLVR手法は通常、最終回答のみに基づく共有報酬を用いて、知覚と推論の両方を更新する、成果（アウトカム）駆動の最適化に依存しています。この共有報酬はクレジット割当を曖昧にし、その結果、推論パターンがしばしば改善される一方で、上流の視覚的証拠抽出の精度を確実に向上させることに失敗することが多いです。こうした知覚のボトルネックに対処するために、共進化型の知覚・推論（PRCO：Perception-Reasoning Coevolution）を導入します。PRCOは、共有方策を持つデュアルロールのRLVRフレームワークです。PRCOは、協調する2つの役割で構成されます。すなわち、質問に合わせて証拠キャプションを生成するObserver（観察者）と、このキャプションに基づいて最終回答を予測するSolver（解答者）です。重要な点として、PRCOは役割ごとの報酬信号を採用します。Solverは最終回答に対する検証可能なアウトカム報酬で最適化されます。一方、ObserverはSolverの下流での成功から導出される有用性報酬を受け取ります。8つの難度の高い多モーダル推論ベンチマークにまたがる大規模な実験により、PRCOは基礎モデルと比べて平均正解率が7点以上向上するなど、モデル規模を超えて一貫した改善が得られることが示されました。さらに、従来のオープンソースのRLチューニング済みベースラインを上回ります。