要旨: マルチモーダル大規模言語モデル(MLLMs)は、画像レベルの推論からピクセルレベルのグラウンディングへと進化してきましたが、これらの能力を動画へ拡張することは依然として難しく、モデルは空間的な精度と時間的に一貫した参照追跡を達成する必要があります。既存の動画MLLMはしばしばフレームごとのグラウンディングに静的なセグメンテーション・トークン([SEG])に依存します。これは意味論を提供しますが時間的文脈を欠き、物体が移動したり再出現したりする際に空間的ドリフト、同一性の切替え、初期化の不安定化を引き起こします。私たちは SPARROW を導入します。SPARROW はピクセルを基盤とした動画 MLLM で、空間的な正確さと時間的安定性を2つの主要な要素で統一します: (i) Target-Specific Tracked Features(TSF):訓練時に時間的に整列した参照手掛かりを注入します、(ii) 幾何学的事前知識を意味的グラウンディングと融合させるために、ボックス([BOX])とセグメンテーション([SEG])トークンをデコードするデュアル・プロンプト設計。SPARROW は、30,646 本の動画と 45,231 組の Q&A ペアからなる厳選された参照用動画データセットによって支えられており、外部検出器を介さず、クラス非依存の SAM2 ベースの提案者を介してエンドツーエンドで動作します。統合されたのは、3 つの最近のオープンソースの動画 MLLMs(UniPixel、GLUS、VideoGLaMM)で、SPARROW は 6 つのベンチマーク全体で一貫した利得をもたらし、RVOS で最大で +8.9 J&F、視覚的グラウンディングで +5 mIoU、GCG で +5.4 CLAIR の改善を実現します。これらの結果は、SPARROW がピクセルを基盤とした動画理解における参照安定性、空間的精度、および時間的整合性を大幅に改善することを示しています。プロジェクトページ: https://risys-lab.github.io/SPARROW
SPARROW: ピクセル基盤の動画MLLMにおける空間精度と時間的参照一貫性の学習
arXiv cs.AI / 2026/3/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- SPARROWは、ターゲット特異追跡特徴(Target-Specific Tracked Features, TSF)を導入し、トレーニング時に時系列で整合した参照手掛かりを注入するほか、ボックスとセグメンテーションのトークンをデコードして幾何学的事前情報と意味的グラウンディングを融合するデュアルプロンプト設計を採用します。ピクセル接地型動画MLLMsの性能向上を目的としています。
- 外部検出器を使用せずエンドツーエンドで動作し、SAM2ベースの提案器を活用します。UniPixel、GLUS、VideoGLaMMの3つのオープンソース動画MLLMへ統合され、性能が一貫して向上しています。
- 本手法は、30,646本の動画と45,231件のQ&Aペアからなる厳選された参照型動画データセットで評価され、RVOSでは最大+8.9のJ&F指標、視覚的グラウンディングで+5 mIoU、GCGで+5.4 CLAIR指標の改善を達成しました。
- 総じて、SPARROWはピクセル接地型動画理解における参照の安定性、空間的精度、および時間的整合性を大幅に向上させ、動画AIシステムにおける時間的に一貫したグラウンディングをより強固にすることを示しています。