概要: 長尺の動画質問応答は拡張された時間的文脈上で推論を要し、有限なコンテキストウィンドウに制約された大規模視覚言語モデル(LVLM)にとってフレーム選択を重要にします。既存の手法は鋭いトレードオフに直面します:類似度ベースのセレクタは高速ですが、構成的クエリを1つの密なベクトルに圧縮してしまい、サブイベントの順序やクロスモーダル結合を失います;エージェントベースの手法は反復的な LVLM 推論を通じてこの構造を回復しますが、そのコストは高額です。私たちはHiMuを導入します。学習を必要としないフレームワークで、このギャップを埋めます。単一のテキストのみのLLM呼び出しがクエリを階層的な論理木に分解し、その葉は原子述語となり、それぞれ視覚(CLIP、オープンボキャブラリ検出、OCR)と音声(ASR、CLAP)を横断する軽量エキスパートへルーティングされます。得られた信号は正規化され、異なるモダリティを整合させるために時系列的に平滑化され、ファジィ論理演算子を介して下から上へ組成され、時系列の順序性と隣接性を強制し、連続的な満足度曲線を生成します。Video-MME、LongVideoBench、HERBench-Liteでの評価は、HiMu が効率-精度のパレートフロントを前進させることを示します:Qwen3-VL 8Bで 16 フレームの場合、競合するすべてのセレクタを上回り、GPT-4o を用いると 32-512 フレームで動作するエージェント系システムを超えつつ、FLOPs は約10分の1程度に抑えます。
HiMu: 長編動画質問応答のための階層的マルチモーダルフレーム選択
arXiv cs.CV / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- HiMuは、長編動画の質問応答のための訓練不要なフレームワークで、テキストのみのLLMを用いてクエリを原子述語を含む階層的な論理ツリーに分解します。
- 各述語は、視覚(CLIP、オープンボキャブラリ検出、OCR)および音声(ASR、CLAP)を横断する軽量なマルチモーダルエキスパートへ振り分けられ、モダリティ特有の信号を生成します。
- 信号は正規化され、モダリティ間の整合性をとるために時系列で平滑化され、隣接性と時系列順序を強制するファジィ論理演算子を介して下位層から統合されます。
- 評価は、HiMuが効率と精度のパレート前線を改善することを示しています。Qwen3-VL 8Bを用いた16フレームでは競合するすべてのセレクターを上回り、GPT-4oを用いた場合には32〜512フレームで動作するエージェント系システムを凌駕しつつ、約10分の1のFLOPsで済みます。