MLLMベースの長編動画理解のための、クエリ条件付きエビデンシャル・キーフレームサンプリング

arXiv cs.CV / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、長編動画QAにおけるMLLMの重要な制約（限られたコンテキスト長と高い計算コスト）に対し、効率的なキーフレーム・サンプリングに焦点を当てて解決を図る。
情報ボトルネック理論に基づく、エビデンス駆動型のサンプリング目的関数を提案し、選択したフレームとユーザークエリの条件付き相互情報量を最大化することで、エビデンシャルな手がかりの捉えを改善する。
最適化をフレーム単位の独立したスコアリングへ分解することで、部分集合選択を扱いやすくし、非効率な組合せ探索を回避する。
クエリ条件付きのエビデンス・スコアリング・ネットワークを導入し、対照学習の目的で訓練することで、各フレームのエビデンシャルな重要度を効率的に推定する。
長編動画理解ベンチマークでの実験により、厳しいトークン予算の下で従来のサンプリング戦略を一貫して上回る改善が確認され、さらに学習効率も向上することが示される。

要旨: マルチモーダル大規模言語モデル（MLLMs）は、動画の質問応答において強い性能を示してきましたが、長尺動画への適用は、限られたコンテキスト長と計算コストのために制約されています。そのため、キーフレームのサンプリングが不可欠です。既存のアプローチは一般に意味的な関連性や強化学習に依存しており、前者は証拠となる手掛かりを十分に捉えられない、あるいは後者は非効率な組合せ最適化に悩まされるという問題があります。本研究では、情報ボトルネック理論に基づく、証拠駆動型のキーフレームサンプリング手法を提案します。キーフレーム選択を、選択されたフレームとクエリの間の条件付き相互情報量を最大化する問題として定式化し、各フレームが質問への回答に寄与する度合いを反映した、原理に基づく目的関数を提示します。この目的を扱いやすくするために、その構造を活用して、部分集合選択を独立なフレーム単位のスコアリングに還元する分解された最適化を導出します。さらに、対照学習の目的で訓練した、クエリに条件付けされたエビデンス（証拠）スコアリングネットワークを導入し、証拠的重要性を効率的に推定します。長尺動画理解のベンチマークにおける実験では、本手法が厳しいトークン予算のもとで、従来のサンプリング戦略に対して一貫して優れていることを示すとともに、学習効率を大幅に向上させることが確認されました。