動画理解における高次の自己相似性の探究
arXiv cs.CV / 2026/4/23
📰 ニュースModels & Research
要点
- 本論文は、空間時自己相似性(STSS)を高次に拡張することで、より豊かな時間的ダイナミクスを捉え、STSSの次数ごとに異なる運動に関する側面が現れることを示します。
- そのうえで、複数次数のSTSS特徴を学習して統合する軽量なニューラルモジュール「MOSS(Multi-Order Self-Similarity)」を提案します。
- 著者らは、MOSSが動画アクション認識、モーション中心の動画VQA、実世界のロボティクス課題など幅広いタスクで性能を向上させる一方、計算量とメモリ使用量の増加はわずかであると報告しています。
- 大規模な実験により、MOSSは多様な領域で汎用の時間モデリングモジュールとして機能し得ることが裏付けられており、コードとチェックポイントも公開予定です。




