連続的にソフト化したリトレーシング再サンプリングによるMLLMの教師なし自己進化の安定化
arXiv cs.CV / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMにおける教師なし自己進化の不安定性に取り組み、多数決による疑似ラベリングが真の正しさというよりはモデル固有のバイアスを強化し得ると主張する。
- CSRSを提案し、アンカーポイントからのリトレーシング再推論メカニズム(RRM)を組み合わせて、長い尾を持つ推論経路をより適切に探索する。
- CSRSでは、二値のフィードバックではなく、連続的で周波数をキャリブレーションした報酬信号を用いるSoftened Frequency Reward(SFR)を導入し、ポストトレーニング中の劣化を抑える。
- 表面的なマルチモーダル手がかりへの過度な依存を防ぐために、VSP(Visual Semantic Perturbation)を取り入れ、モデルを数学的/論理的推論へと導く。
- 実験では、MathVisionなどのベンチマークにおいてQwen2.5-VL-7Bの推論性能が大幅に向上し、幾何学タスクでSOTAの結果が報告されており、コードはGitHubで公開されている。
