最適なものを優先する:正解性のみに報いるのではなく、検証可能なマルチモーダル推論を奨励する

arXiv cs.CL / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、最終解答の正しさと推論の妥当性の間にある不一致(「推論—解答不整合」)に対処するマルチモーダル強化学習の手法を提案する。
  • 検証可能な報酬を用いた強化学習における報酬設計として、報酬モデル(RMs)と生成報酬(GRs)を比較し、効率性・安定性・計算コストのトレードオフを示す。
  • 推論が強い正解軌跡をより確実に区別するために、著者らは同一プロンプトに対して検証に通った軌跡を1回のパスで順位付けし、報酬を再配分するGroupwise Ranking Rewardを提案する。
  • 実験では、RLVRが推論—解答不整合を悪化させ得る一方で、軌跡の教師あり監督はそれを緩和することがわかる。
  • Groupwise Ranking Rewardが全体として最良で、RLVRに比べて信頼性条件付き精度が47.4%から54.7%へ向上した。

要旨: 検証可能な報酬による強化学習(Reinforcement Learning with Verifiable Rewards; RLVR)は、検証可能な最終回答に報酬を与えることでマルチモーダル推論を改善する。 しかし、正しい回答に至る軌跡(trajectory)は、不完全な導出、弱い根拠、あるいは結論と矛盾する記述に依存している可能性がある。 本稿では、回答の正しさと推論の妥当性の間に存在するこのギャップを推論—回答不一致(reasoning-answer inconsistency)と呼び、マルチモーダル強化学習における軌跡の教師あり(trajectory supervision)を動機づける。 我々は主に2つのアプローチを比較する:報酬モデル(Reward Models; RMs)と生成報酬(Generative Rewards; GRs)である。 RMsは効率的で学習初期に役立つが、方策分布が変化するとその効果は弱まる。 一方、GRsは性能を向上させるが、不安定な報酬を与える可能性があり、計算コストも高い。 そこで我々は、同一のプロンプトに対して検証器に通過した軌跡を1回のパスで順位付けし、それに応じて報酬を再分配するGroupwise Ranking Reward(グループ間順位付け報酬)を提案する。 グループごとの比較は、GRsよりも判定のオーバーヘッドが小さい一方で、より強い正しい軌跡とより弱い正しい軌跡をより良く分離できる。 実験の結果、RLVRは推論—回答不一致を悪化させるが、軌跡の教師ありはそれを緩和することが示された。 Groupwise Ranking Rewardは全体として最も良い性能を示し、RLVRに対して信頼性条件付きの精度を47.4%から54.7%へと改善する。