広告

階層的グローバル・ローカル骨格言語モデルによるLLM強化アクション認識

arXiv cs.CV / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長距離依存関係とより豊かな時間的ダイナミクスを捉えることで、骨格ベースの人間の行動認識を改善することを目的とした階層的グローバル・ローカル骨格言語モデル「HocSLM」を提案する。
  • 「HGLNet」を導入し、合成トポロジに基づく空間モデリングと、全体(グローバル)および局所(ローカル)の時空間関係を、人の身体構造を考慮しながら協調的に学習する二経路の階層的時間モジュールを示す。
  • 行動の意味(セマンティクス)を注入するために、本手法は大規模ビジョン・言語モデル(VLM)を用いて元のRGB動画からテキスト記述を生成し、その後、骨格言語の逐次融合モジュールを学習して骨格特徴をテキストと共有セマンティクス空間上で整合させる。
  • NTU RGB+D 60、NTU RGB+D 120、およびNorthwestern-UCLAでの実験により、最先端の性能が示されており、意味の識別性の向上とモダリティ間の理解の改善を示唆している。

Abstract

骨格(スケルトン)ベースの人間の行動認識は、近年目覚ましい進展を遂げています。しかし、既存のGCNベース手法の多くは短距離の運動トポロジーに依存しており、長距離の関節依存関係や複雑な時間的ダイナミクスを捉えるのが難しいだけでなく、行動のセマンティクスを十分にモデル化できないために、クロスモーダルな意味の整合・理解も制限されます。これらの課題に対処するため、階層的グローバル—ローカルなスケルトン言語モデル(HocSLM)を提案し、より大規模な行動モデルが行動セマンティクスをより代表できるようにします。まず、複合トポロジーの空間モジュールと、デュアルパスの階層型時間モジュールから構成される階層的グローバル—ローカルネットワーク(HGLNet)を設計します。多層のグローバルおよびローカルモジュールを相補的に統合することで、HGLNetは、人間の身体の物理構造に関する事前知識を保持しながら、グローバルおよびローカルの両スケールで動的に協調してモデリングを行い、複雑な時空間関係の表現力を大幅に向上させます。次に、大規模ビジョン言語モデル(VLM)を用いて、元のRGB動画シーケンスをこのモデルに入力し、後続のスケルトン言語モデルの学習のための豊富な行動セマンティクスを提供するテキスト記述を生成します。さらに、HGLNetの特徴と生成された記述を組み合わせることで、スケルトン言語逐次融合モジュールを導入します。このモジュールは、スケルトン言語モデル(SLM)を利用して、骨格の時空間特徴とテキストによる行動記述を統一されたセマンティクス空間内で正確に整合させます。SLMモデルは、HGLNetのセマンティクスに基づく識別能力と、クロスモーダル理解能力を大きく高めることができます。広範な実験の結果、提案するHocSLMは、3つの主要なベンチマークデータセット、すなわちNTU RGB+D 60、NTU RGB+D 120、Northwestern-UCLAにおいて、最先端の性能を達成することが示されました。

広告