動画理解における高次の自己相似性の探究

arXiv cs.CV / 2026/4/23

📰 ニュースModels & Research

共有:

要点

本論文は、空間時自己相似性（STSS）を高次に拡張することで、より豊かな時間的ダイナミクスを捉え、STSSの次数ごとに異なる運動に関する側面が現れることを示します。
そのうえで、複数次数のSTSS特徴を学習して統合する軽量なニューラルモジュール「MOSS（Multi-Order Self-Similarity）」を提案します。
著者らは、MOSSが動画アクション認識、モーション中心の動画VQA、実世界のロボティクス課題など幅広いタスクで性能を向上させる一方、計算量とメモリ使用量の増加はわずかであると報告しています。
大規模な実験により、MOSSは多様な領域で汎用の時間モデリングモジュールとして機能し得ることが裏付けられており、コードとチェックポイントも公開予定です。

Abstract

時空自己類似性（STSS）は、フレーム間の視覚的対応関係を捉えることで、動画理解における時間的ダイナミクスを表現する効果的な手段を提供します。本研究では、より高次のSTSSを探究し、異なる次数のSTSSがこれらのダイナミクスの異なる側面をどのように明らかにするかを示します。次に、多次数自己類似性（MOSS）モジュールを導入します。これは、多次数STSSの特徴を学習して統合するために設計された軽量なニューラルモジュールです。これは、わずかな計算コストとメモリ使用量のみで、動きのモデリング能力を高めるために多様な動画タスクへ適用できます。動画の行動認識、モーション中心の動画VQA、そして実世界のロボットタスクに関する大規模な実験により、顕著な改善が一貫して示され、一般的な時間的モデリングモジュールとしてのMOSSの幅広い適用可能性が検証されます。ソースコードとチェックポイントは公開されます。