視覚言語モデルにおける物理的推論のための報酬設計

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、GRPOベースのトレーニングをアブレーションし、より豊かな4種類の報酬信号(形式順守、回答の正確さ、複合ルーブリック、注意から導出した内部報酬)を段階的に用いることで、報酬設計が視覚言語モデルの物理的推論に与える影響を調べる。