SkeletonContext：ゼロショット骨格ベース行動認識のためのスケルトン側コンテキスト・プロンプト学習

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、運動特徴をテキスト埋め込みへ対応付ける際に、（物体などの）文脈手がかりが欠落することで生じる意味ギャップに取り組み、ゼロショット骨格ベース行動認識を扱う。
スケルトン表現に言語駆動の文脈を付与する SkeletonContext を提案し、LLM由来の信号に導かれた事前学習済み言語モデルによってマスクされた文脈プロンプトを再構成するクロスモーダル・コンテキスト・プロンプト・モジュールを用いる。
明示的な物体相互作用が存在しない場合でも頑健性を高めるため、運動に関連する関節を分離する Key-Part Decoupling モジュールを含む。
複数のベンチマークにおける実験により、従来型および一般化ゼロショットの双方で最先端の結果が示される。特に、見た目が視覚的に非常に似ている微細な行動で顕著である。
全体として、本手法は言語から骨格エンコーダへ文脈的意味を転送することで、インスタンスレベルの意味的基底付けとモーダル間整合の改善を実証する。

Abstract

ゼロショットの骨格ベースの行動認識は、意味的記述を通じて見えているカテゴリから未見の行動へ知識を移すことで、未見の行動を認識することを目指します。既存の多くの手法では、骨格特徴を共有潜在空間内のテキスト埋め込みに整合させることが一般的です。しかし、行動に関与する物体などの文脈手がかりが欠如しているために、骨格と意味表現の間には本質的なギャップが生まれ、視覚的に類似した行動を区別しにくくなります。これに対処するために、言語によって駆動される文脈意味論で骨格の運動表現を豊かにする、プロンプトベースの枠組みである SkeletonContext を提案します。具体的には、事前学習済みの言語モデルを用いて、LLM から得られる指導に基づきマスクされた文脈プロンプトを再構成する、Cross-Modal Context Prompt Module を導入します。この設計により、言語的文脈を骨格エンコーダへ効果的に伝達し、インスタンスレベルでの意味的グラウンディングと、クロスモーダル整合の改善を実現します。さらに、Key-Part Decoupling Module を組み込み、運動に関連する関節特徴を分離することで、明示的な物体の相互作用が存在しない場合でも頑健な行動理解を確保します。複数のベンチマークに対する大規模な実験により、SkeletonContext が従来型および汎用ゼロショット設定の両方で最先端の性能を達成することが示され、文脈について推論し、微細で視覚的に類似した行動を区別する上での有効性が検証されます。