長い裾野(不均衡)分布における深層回帰のための強化学習で分布的気づきをMLLMに注入する

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • マルチモーダル大規模言語モデル(MLLM)は、長い裾野(不均衡)を持つ目標分布に対する数値回帰が苦手で、トークン単位の教師あり微調整の偏りにより平均への回帰(回帰が平均に寄る現象)が起きやすい。
  • 既存の学習パラダイムには、バッチ内で予測同士(あるいは予測と正解同士)を比較することで学習できるはずの「サンプル間の関係に関する教師信号」が不足している点が重要な制約だと指摘している。
  • そこで、Group Relative Policy Optimizationと、予測と正解の相関・スケール・平均を揃えるためのConcordance Correlation Coefficientベースの報酬を用いた、分布を意識した強化学習フレームワークを提案する。
  • この手法はプラグアンドプレイで、アーキテクチャの変更を必要としない。
  • 長い裾野の回帰ベンチマークで、SFTや既存のMLLM回帰手法より一貫して改善し、とくに中規模および少数ショットの条件で大きな効果が見られる。