階層的グローバル・ローカル骨格言語モデルによるLLM強化アクション認識
arXiv cs.CV / 2026/3/31
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、長距離依存関係とより豊かな時間的ダイナミクスを捉えることで、骨格ベースの人間の行動認識を改善することを目的とした階層的グローバル・ローカル骨格言語モデル「HocSLM」を提案する。
- 「HGLNet」を導入し、合成トポロジに基づく空間モデリングと、全体(グローバル)および局所(ローカル)の時空間関係を、人の身体構造を考慮しながら協調的に学習する二経路の階層的時間モジュールを示す。
- 行動の意味(セマンティクス)を注入するために、本手法は大規模ビジョン・言語モデル(VLM)を用いて元のRGB動画からテキスト記述を生成し、その後、骨格言語の逐次融合モジュールを学習して骨格特徴をテキストと共有セマンティクス空間上で整合させる。
- NTU RGB+D 60、NTU RGB+D 120、およびNorthwestern-UCLAでの実験により、最先端の性能が示されており、意味の識別性の向上とモダリティ間の理解の改善を示唆している。




