LVLMにおける強化学習ベースの微調整を再考：収束、報酬分解、汎化

arXiv cs.LG / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検証可能な報酬（RLVR）による強化学習ベースの微調整に関する理論的な不明点を、特にVisual-ARFTの収束と転移の観点から解消しようとする。
著者らは、ツール呼び出しの深さを制限した多モーダルなエージェント意思決定を形式化する枠組みとしてTool-Augmented Markov Decision Process（TA-MDP）を提案する。
検証可能な報酬の合成構造を用いたGroup Relative Policy Optimization（GRPO）が、一階停留点へO(1/√T)で収束することを、報酬成分数とグループサイズへの明示的な依存関係込みで証明する。
報酬を成分ごとに分解して最適化することが、共同最適化と比べていつ有利になるかを定量化するReward Decomposition Theoremを導出する。
最後に、ツール拡張タスクの小規模な学習セットから外部分布（out-of-distribution）領域へ強く転移できる理由を説明するPAC-Bayesの汎化境界を提示する。

要旨: 確認可能な報酬による強化学習の微調整（RLVR）は、大規模な視覚言語モデル（LVLMs）に、ツール使用や多段推論といったエージェント的能力を持たせるための強力なパラダイムとして登場した。顕著な経験的成功、特にVisual Agentic Reinforcement Fine-Tuning（Visual-ARFT）があるにもかかわらず、このパラダイムの理論的基盤は十分に理解されていない。とりわけ、2つの重要な問いには厳密な答えが欠けている：（i）確認可能な報酬の複合的構造（形式準拠、回答の正確さ、ツール実行可能性）が、Group Relative Policy Optimization（GRPO）の収束にどのように影響するのか、そして（ii）ツール拡張された少数のタスクでの学習が、分布外（out-of-distribution）の領域へなぜ転移するのか、である。これらのギャップを埋めるために、
\emph{Tool-Augmented Markov Decision Process}（TA-MDP）を導入する。これは、呼び出し回数が有界なツール呼び出しを伴うマルチモーダルなエージェントの意思決定をモデル化する形式的枠組みである。この枠組みの中で、我々は3つの主要な結果を確立する。第一に、複合的な確認可能報酬の下でのGRPOは、報酬成分の数とグループサイズに明示的に依存しつつ、 $O(1/\sqrt{T})$ の収束率で一次の停留点へ収束することを証明する（\textbf{定理~1}）。第二に、\emph{Reward Decomposition Theorem（報酬分解定理）}を導出し、分解された成分ごとの最適化と共同最適化の間の劣適性ギャップを抑えることで、報酬分解が有益となる条件を正確に特徴付ける（\textbf{定理~2}）。第三に、ツール拡張ポリシーに対するPAC-Bayes型の一般化境界を確立し、Visual-ARFTで観測される強い分布外転移を説明する（\textbf{定理~3}）。

返却形式: {"translated": "翻訳されたHTML"}