最適なものを優先する：正解性のみに報いるのではなく、検証可能なマルチモーダル推論を奨励する

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、最終解答の正しさと推論の妥当性の間にある不一致（「推論—解答不整合」）に対処するマルチモーダル強化学習の手法を提案する。
検証可能な報酬を用いた強化学習における報酬設計として、報酬モデル（RMs）と生成報酬（GRs）を比較し、効率性・安定性・計算コストのトレードオフを示す。
推論が強い正解軌跡をより確実に区別するために、著者らは同一プロンプトに対して検証に通った軌跡を1回のパスで順位付けし、報酬を再配分するGroupwise Ranking Rewardを提案する。
実験では、RLVRが推論—解答不整合を悪化させ得る一方で、軌跡の教師あり監督はそれを緩和することがわかる。
Groupwise Ranking Rewardが全体として最良で、RLVRに比べて信頼性条件付き精度が47.4%から54.7%へ向上した。

要旨: 検証可能な報酬による強化学習（Reinforcement Learning with Verifiable Rewards; RLVR）は、検証可能な最終回答に報酬を与えることでマルチモーダル推論を改善する。しかし、正しい回答に至る軌跡（trajectory）は、不完全な導出、弱い根拠、あるいは結論と矛盾する記述に依存している可能性がある。本稿では、回答の正しさと推論の妥当性の間に存在するこのギャップを推論—回答不一致（reasoning-answer inconsistency）と呼び、マルチモーダル強化学習における軌跡の教師あり（trajectory supervision）を動機づける。我々は主に2つのアプローチを比較する：報酬モデル（Reward Models; RMs）と生成報酬（Generative Rewards; GRs）である。 RMsは効率的で学習初期に役立つが、方策分布が変化するとその効果は弱まる。一方、GRsは性能を向上させるが、不安定な報酬を与える可能性があり、計算コストも高い。そこで我々は、同一のプロンプトに対して検証器に通過した軌跡を1回のパスで順位付けし、それに応じて報酬を再分配するGroupwise Ranking Reward（グループ間順位付け報酬）を提案する。グループごとの比較は、GRsよりも判定のオーバーヘッドが小さい一方で、より強い正しい軌跡とより弱い正しい軌跡をより良く分離できる。実験の結果、RLVRは推論—回答不一致を悪化させるが、軌跡の教師ありはそれを緩和することが示された。 Groupwise Ranking Rewardは全体として最も良い性能を示し、RLVRに対して信頼性条件付きの精度を47.4%から54.7%へと改善する。