視覚言語モデルにおける物理的推論のための報酬設計
arXiv cs.AI / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、GRPOベースのトレーニングをアブレーションし、より豊かな4種類の報酬信号(形式順守、回答の正確さ、複合ルーブリック、注意から導出した内部報酬)を段階的に用いることで、報酬設計が視覚言語モデルの物理的推論に与える影響を調べる。
arXiv cs.AI / 2026/4/16