マルチモーダル推論モデルの強化学習によるポストトレーニングにおける幻覚の役割を理解する
arXiv cs.LG / 2026/4/6
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、強化学習(RL)のポストトレーニングがマルチモーダル大規模言語モデル(MLLM)にどのように影響するかを調査し、特に改善が本当に視覚情報からの学習を反映しているのかどうかを検討します。
- 「幻覚-as-キュー(Hallucination-as-Cue)フレームワーク」を導入します。これは、幻覚誘導的な、モダリティ固有の破壊(corruptions)によって重要な視覚情報を除去または置換し、モデルが答えるために“幻覚”に依存せざるを得ないようにするものです。
- 複数のマルチモーダル推論ベンチマークにわたる実験から、幻覚は、先行研究が想定していたよりもRL学習ダイナミクスにおいて重要な役割を果たすことが示唆されます。
- 著者らは、幻覚を誘発するように設計された設定下でも、RLポストトレーニングによって推論が改善し、場合によっては標準的な(RLを行わない)トレーニングの性能を上回ることを見出します。
- これらの結果は、RLポストトレーニング中にMLLMがどのように学習するかについての従来の前提に挑戦し、モダリティにより配慮したRLトレーニング設計の必要性を動機づけます。




