SkeletonContext:ゼロショット骨格ベース行動認識のためのスケルトン側コンテキスト・プロンプト学習
arXiv cs.CV / 2026/4/1
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、運動特徴をテキスト埋め込みへ対応付ける際に、(物体などの)文脈手がかりが欠落することで生じる意味ギャップに取り組み、ゼロショット骨格ベース行動認識を扱う。
- スケルトン表現に言語駆動の文脈を付与する SkeletonContext を提案し、LLM由来の信号に導かれた事前学習済み言語モデルによってマスクされた文脈プロンプトを再構成するクロスモーダル・コンテキスト・プロンプト・モジュールを用いる。
- 明示的な物体相互作用が存在しない場合でも頑健性を高めるため、運動に関連する関節を分離する Key-Part Decoupling モジュールを含む。
- 複数のベンチマークにおける実験により、従来型および一般化ゼロショットの双方で最先端の結果が示される。特に、見た目が視覚的に非常に似ている微細な行動で顕著である。
- 全体として、本手法は言語から骨格エンコーダへ文脈的意味を転送することで、インスタンスレベルの意味的基底付けとモーダル間整合の改善を実証する。




