ビデオ理解のための構造化されたチェーン・オブ・ソート強化

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、マルチモーダル大規模言語モデルによるビデオ理解における不足点を扱う。具体的には、推論における「思考ドリフト（thinking drift）」や、GRPOのような先行RL手法にもかかわらず弱い時間的理解が挙げられる。
それに対し、要約（Summary-Driven）に基づく強化学習（Summary-Driven Reinforcement Learning; SDRL）を提案する。これは単一段階のRLアプローチであり、高価なチェーン・オブ・ソート注釈を用いた教師あり微調整の必要を取り除く。
SDRLは、構造化された推論フォーマット—「要約（Summarize）→考える（Think）→答える（Answer）」—を用い、さらにGRPOの目的関数に2つの自己教師あり信号を追加する。すなわち、事実に基づく根拠付けのための「視覚知識の整合性（Consistency of Vision Knowledge; CVK）」と、探索のための「推論の動的多様性（Dynamic Variety of Reasoning; DVR）」である。
本手法は、最終回答だけでなく中間の推論行動も監督しつつ、固定化された推論経路を避け、誘導されるバイアスを低減することで汎化性能の向上を目指す。
実験では、7つの公開VideoQAデータセットにおいて最先端（state-of-the-art）の結果が報告されており、ビデオ質問応答性能の大幅な改善が示されている。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、動画理解において有望であることが示されています。しかし、それらの推論は、Group Relative Policy Optimization（GRPO）のような強化学習（RL）手法によって強化されたとしても、思考ドリフトや弱い時間的理解に悩まされることがしばしばあります。さらに、既存のRL手法は通常、教師あり微調整（SFT）に依存しており、コストのかかるChain-of-Thought（CoT）注釈と段階的なマルチステージ学習が必要で、また固定された推論経路を強制します。これにより、MLLMの汎化能力が制限されるとともに、バイアスが生じる可能性もあります。これらの制限を克服するために、我々は、Structured CoT形式を用いることでSFTの必要性をなくす、新しいシングルステージRLフレームワークであるSummary-Driven Reinforcement Learning（SDRL）を提案します。形式は：Summarize -> Think -> Answer（要約 -> 思考 -> 回答）です。SDRLは、GRPO目的関数に統合された2つの自己教師ありメカニズムを導入します。1）Vision Knowledgeの整合性（CVK）は、生成された要約間のKLダイバージェンスを低減することで事実に基づく根拠付けを強制します。2）Dynamic Variety of Reasoning（DVR）は、グループの精度に基づいて思考の多様性を動的に調整することで探索を促進します。この新しい統合により、アラインメントと探索のバランスが効果的に取れ、最終的な回答と推論プロセスの両方を監督します。我々の手法は、7つの公開VideoQAデータセットで最先端の性能を達成します。