MLLLM向けの学習不要なビデオ推論セグメンテーションのための分解型アテンション・フュージョン

arXiv cs.CV / 2026/4/27

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

この論文は、学習不要のビデオ推論セグメンテーションをビデオQAタスクとして捉え、MLLMのアテンション・ロールアウト機構によりアテンションマップを抽出する手法を提案しています。
生のアテンションマップはノイズが多く、物体領域と整合しにくいと主張し、それを改善するためのDecomposed Attention Fusion（DecAF）を導入しています。
DecAFは、コントラスト的な物体–背景フュージョンと、補完的なビデオフレームフュージョンの2つの仕組みにより、無関係な活性を抑えて物体に焦点を当てた手がかりを強化します。
精密なマスクはアテンション誘導型のSAM2プロンピングで得ており、まずは洗練したアテンションマップから粗いセグメンテーションマスクへ直接変換します。
実験では、参照および推論VOSのベンチマークでDecAFが学習不要手法を上回り、さらにMLLM/SAMの再学習なしで学習ベース手法と同等の性能を達成したと報告されています。