少ないことは豊かさ: 効率的な骨格表現学習のためのデコーダーフリー・マスクドモデリング

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SLiM は、共有エンコーダを介して masked modeling と contrastive learning を統合する、骨格ベースのアクション表現学習のためのデコーダーフリーのマスクドモデリングフレームワークとして提案される。
再構成デコーダを排除することにより、SLiM は計算上の冗長性を削減するとともに、エンコーダが識別的な特徴を直接学習するよう強制する。
セマンティック・チューブ・マスキングと骨格を意識した拡張を導入し、高い骨格-時間相関による単純な再構成を防ぎ、時間的スケール全体で解剖学的一貫性を維持する。
実験により、下流プロトコル全体で最先端の性能を一貫して達成することを示し、従来の MAE 手法と比較して推論コストを 7.89 倍削減するなど、顕著な効率向上を実現している。

骨格ベースのアクション表現学習の景観は、対照学習（CL）からマスクド・オートエンコーダ（MAE）アーキテクチャへと発展してきた。しかし、各パラダイムには固有の制約がある。CL はしばしば細かな局所的ディテールを見過ごす一方、MAE は計算負荷の高いデコーダに悩まされる。さらに MAE は重大な計算の非対称性を抱える――事前学習時には効率的なマスキングの恩恵を受けるが、下流タスクには全シーケンスを網羅的に処理する必要がある。これらのボトルネックを解決するため、我々は SLiM（Skeleton Less is More）を提案する。これは共有エンコーダを介してマスクドモデリングと対照学習を統合する新しい統一フレームワークである。再構成デコーダを排除することで、SLiM は計算冗長性を排除するだけでなく、エンコーダが識別的な特徴を直接捉えるよう促す。SLiM は、デコーダーフリーの表現学習を実現する最初のフレームワークである。重要な点は、高い骨格-時間相関から生じる単純な再構成を防ぐため、セマンティック・チューブ・マスキングを導入するとともに、さまざまな時間的粒度に対して解剖学的一貫性を確保するよう設計された骨格を意識した拡張を導入している。広範な実験により、SLiM はすべての下流プロトコルで一貫して最先端の性能を達成することを示した。特筆すべきは、本手法が既存の MAE 手法と比較して推論コストを 7.89 倍削減するという、卓越した効率とともにこの高精度を実現している点である。