要旨: 確認可能な報酬による強化学習の微調整(RLVR)は、大規模な視覚言語モデル(LVLMs)に、ツール使用や多段推論といったエージェント的能力を持たせるための強力なパラダイムとして登場した。顕著な経験的成功、特にVisual Agentic Reinforcement Fine-Tuning(Visual-ARFT)があるにもかかわらず、このパラダイムの理論的基盤は十分に理解されていない。とりわけ、2つの重要な問いには厳密な答えが欠けている:(i)確認可能な報酬の複合的構造(形式準拠、回答の正確さ、ツール実行可能性)が、Group Relative Policy Optimization(GRPO)の収束にどのように影響するのか、そして(ii)ツール拡張された少数のタスクでの学習が、分布外(out-of-distribution)の領域へなぜ転移するのか、である。これらのギャップを埋めるために、
\emph{Tool-Augmented Markov Decision Process}(TA-MDP)を導入する。これは、呼び出し回数が有界なツール呼び出しを伴うマルチモーダルなエージェントの意思決定をモデル化する形式的枠組みである。この枠組みの中で、我々は3つの主要な結果を確立する。第一に、複合的な確認可能報酬の下でのGRPOは、報酬成分の数とグループサイズに明示的に依存しつつ、O(1/\sqrt{T}) の収束率で一次の停留点へ収束することを証明する(\textbf{定理~1})。第二に、\emph{Reward Decomposition Theorem(報酬分解定理)}を導出し、分解された成分ごとの最適化と共同最適化の間の劣適性ギャップを抑えることで、報酬分解が有益となる条件を正確に特徴付ける(\textbf{定理~2})。第三に、ツール拡張ポリシーに対するPAC-Bayes型の一般化境界を確立し、Visual-ARFTで観測される強い分布外転移を説明する(\textbf{定理~3})。
返却形式: {"translated": "翻訳されたHTML"}




