長い裾野（不均衡）分布における深層回帰のための強化学習で分布的気づきをMLLMに注入する

arXiv cs.CL / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

マルチモーダル大規模言語モデル（MLLM）は、長い裾野（不均衡）を持つ目標分布に対する数値回帰が苦手で、トークン単位の教師あり微調整の偏りにより平均への回帰（回帰が平均に寄る現象）が起きやすい。
既存の学習パラダイムには、バッチ内で予測同士（あるいは予測と正解同士）を比較することで学習できるはずの「サンプル間の関係に関する教師信号」が不足している点が重要な制約だと指摘している。
そこで、Group Relative Policy Optimizationと、予測と正解の相関・スケール・平均を揃えるためのConcordance Correlation Coefficientベースの報酬を用いた、分布を意識した強化学習フレームワークを提案する。
この手法はプラグアンドプレイで、アーキテクチャの変更を必要としない。
長い裾野の回帰ベンチマークで、SFTや既存のMLLM回帰手法より一貫して改善し、とくに中規模および少数ショットの条件で大きな効果が見られる。

Dev.to

Dev.to

TechCrunch

Dev.to

Dev.to