広告

至るところローマに通ず:ビジョン言語モデルにおける多様な思考を促す

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、GRPOのような強化学習手法がビジョン言語モデルの推論を改善しうる理由を調査し、その際の推論行動がベース(非RL)モデルとどのように異なるのかに焦点を当てる。
  • 行動面および学習ダイナミクス面での差異が見いだされる。すなわち、RLはより深い一方で狭い推論へと傾きやすく、ベースモデルはより広範で多様な推論パターンを生成する。
  • 著者らは、GRPOの重要な制限として多様性の崩壊(diversity collapse)を特定する。これは、モデルが限られた少数の推論戦略に過度に早く収束してしまい、局所最適に行き詰まり、スケーラビリティを低下させる現象である。
  • これを軽減するため、本論文は複数グループ・ポリシー最適化(Multi-Group Policy Optimization: MUPO)を提案し、複数の解法経路にわたる多様な思考を促す。
  • MUPOは確立されたベンチマークで評価され、早期の収束を防ぎ推論の多様性を維持することで、有効性が向上することが示される。

Abstract

近年の研究により、強化学習(Reinforcement Learning: RL)、とりわけGroup Relative Policy Optimization(GRPO)が、視覚言語モデル(Vision-Language Models: VLMs)の推論能力を内在的に引き出し、さらに強化できることが示されています。しかし、有望である一方で、RLモデルの有効性をもたらす根本的なメカニズムやその限界については、まだ十分に調べられていません。本論文では、RLと基盤モデル(base models)との間に本質的な行動上の違いがあることを指摘します。すなわち、前者はより深いが狭い推論を行うのに対し、基盤モデルは個々の経路における洗練度が低いにもかかわらず、より広く多様な思考パターンを示します。さらにトレーニングダイナミクスを分析することで、GRPOは多様性崩壊(diversity collapse)を起こしやすく、その結果、モデルが限られた推論戦略の部分集合に対して早期に収束してしまい、大部分の潜在的な選択肢を捨ててしまうことがわかります。これにより局所最適となり、スケーラビリティが低くなります。これに対処するために、複数の解にわたって発散的な思考を促すことを目的とした、シンプルかつ効果的なアプローチであるMulti-Group Policy Optimization(MUPO)を提案し、確立されたベンチマークでその有効性を実証します。プロジェクトページ: https://xytian1008.github.io/MUPO/

広告