知覚的ショートカットを超えて：軽量MLLMによる汎用的な動画推論のための因果インスパイアード・デバイアス最適化

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、強化学習（RL）が軽量なマルチモーダル言語モデル（MLLM）の推論品質をかえって制限し得る理由として、データセットのバイアスが生む知覚的ショートカットに頼るよう誘導される点を指摘しています。
提案するVideoThinkerは因果に着想を得た2段階のデバイアス手法で、Bias Aware Trainingで「バイアスモデル」を明示的に作り、その誤ったロジックから本体モデルを離すことで矯正するCDPO（Causal Debiasing Policy Optimization）を行います。
VideoThinker-R1は、効率的な動画推論において新たな最先端性能を示し、同一規模の比較でSFTを不要にしつつ、RLに用いる学習データも削減しながら既存ベンチマークを上回りました。
スケールをまたいだ評価でも、より大きい7Bモデルより複数の動画推論ベンチマークで良い結果となり、汎化性能の高さが示唆されています。
著者はコードを公開しており、軽量でエッジ展開可能な動画推論システムへの再現や拡張がしやすくなっています。