要旨: 大規模マルチモーダルモデル(LMMs)に対する標準的なポストトレーニング手順では、厳選したデモンストレーションに対する教師あり微調整(SFT)を行った後、検証可能な報酬による強化学習(RLVR)を実施します。しかし、SFTは分布のドリフトを導入し、モデルの元の能力を保持せず、また監督(スーパービジョン)の分布を忠実に再現もしません。この問題は、知覚エラーと推論失敗が異なるドリフトパターンに従い、その後のRLの過程で増幅されるマルチモーダル推論において、さらに深刻になります。私たちは、SFTとRLVRの間に明示的な分布整合(distribution-alignment)段階を挿入することで、このドリフトを緩和する三段階パイプラインPRISMを提案します。オンポリシー蒸留(OPD)の原理に基づき、PRISMは整合を、ポリシーと、専用の知覚エキスパートおよび推論エキスパートを備えたMixture-of-Experts(MoE)判別器との間の、ブラックボックスな応答レベルの敵対的ゲームとして捉えます。これにより、教師ログitへのアクセスを不要にしつつ、分離された是正シグナルを与えて、ポリシーを監督分布へと導きます。1.26Mの公開デモンストレーションであれば広範なSFTの初期化には十分ですが、分布整合にはより高忠実度の監督が必要です。そのため、Gemini 3 Flashから追加の113K件のデモンストレーションをキュレーションし、最も解決されていない難問に対して、密な視覚的グラウンディングと段階的な推論を特徴として含めます。Qwen3-VLにおける実験では、PRISMが複数のRLアルゴリズム(GRPO、DAPO、GSPO)および多様なマルチモーダルベンチマークにわたって、下流のRLVR性能を一貫して改善することが示されます。4Bおよび8Bにおいて、それぞれSFTからRLVRへのベースラインに対し平均精度を+4.4および+6.0ポイント改善します。私たちのコード、データ、およびモデルのチェックポイントは https://github.com/XIAO4579/PRISM で公開されています。
PRISM:ブラックボックス型オンポリシー蒸留によるマルチモーダル強化学習の事前アライメント
arXiv cs.CL / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- 本論文は、一般的なLMMのアライメント手順(キュレーションされたデモでのSFTの後に、検証可能な報酬によるRLVR)では分布ドリフトが生じ、元の能力を損ねたり、教師(監督)分布と整合しなくなる問題があると指摘しています。
- それを緩和するために、SFTとRLVRの間に明示的な分布整合(distribution alignment)段階を挿入する3段階パイプラインPRISMを提案します。
- PRISMは、オンポリシー蒸留(OPD)の考え方にもとづき、方策とMixture-of-Experts(MoE)判別器の間で「応答レベル」のブラックボックス型対戦ゲームとして整合を定式化し、教師のlogitsにアクセスせずに矯正信号を与えられる点が特徴です。
- 学習では、公開デモ126万件に加えて、より高精度な追加デモ(Gemini 3 Flashから生成した11.3万件)を用意し、密な視覚的根拠付けと段階的な推論を含めることで整合の質を高めています。
- 実験(Qwen3-VL)では、PRISMが複数のRLアルゴリズム(GRPO, DAPO, GSPO)と多様なマルチモーダルベンチマークで一貫してRLVR性能を改善し、SFT-to-RLVRベースラインに対して平均精度を4Bで+4.4、8Bで+6.0ポイント向上させることを示し、コード/データ/チェックポイントも公開されています。




