至るところローマに通ず:ビジョン言語モデルにおける多様な思考を促す
arXiv cs.CV / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、GRPOのような強化学習手法がビジョン言語モデルの推論を改善しうる理由を調査し、その際の推論行動がベース(非RL)モデルとどのように異なるのかに焦点を当てる。
- 行動面および学習ダイナミクス面での差異が見いだされる。すなわち、RLはより深い一方で狭い推論へと傾きやすく、ベースモデルはより広範で多様な推論パターンを生成する。
- 著者らは、GRPOの重要な制限として多様性の崩壊(diversity collapse)を特定する。これは、モデルが限られた少数の推論戦略に過度に早く収束してしまい、局所最適に行き詰まり、スケーラビリティを低下させる現象である。
- これを軽減するため、本論文は複数グループ・ポリシー最適化(Multi-Group Policy Optimization: MUPO)を提案し、複数の解法経路にわたる多様な思考を促す。
- MUPOは確立されたベンチマークで評価され、早期の収束を防ぎ推論の多様性を維持することで、有効性が向上することが示される。


