AI Navigate

FG-SGL: マイクロジェスチャー認識のためのモーションプロセス分解による細粒度セマンティックガイダンス学習

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • FG-SGL は、微細な粒度とカテゴリレベルのセマンティクスを共同で統合し、マイクロジェスチャー認識のためのビジョン-言語モデルを指導するフレームワークであり、クラス間の微妙な運動差異に対処する。
  • FG-SGL は、局所的な動作特徴を学習するための細粒度セマンティック手掛かりを活用する FG-SA と、カテゴリレベルのセマンティックガイダンスを通じて特徴の識別性を向上させる CP-A を含む。
  • 細粒度の指導を支援するために、本手法は、マイクロジェスチャーの動的過程を人間の注釈で記述した、4つの精緻な意味次元からなる細粒度のテキストデータセットを構築する。
  • 多レベル対照学習最適化戦略は、粗い段階から細い段階へと段階的に両モジュールを共同最適化し、実験により競争力のある性能を示している。

要旨:マイクロジェスチャ認識(MGR)は、クラス間の微妙な差異によって困難です。既存の手法はカテゴリレベルの監督に依存しており、微妙で局所的な動作差を捉えるには不十分です。したがって、本論文は、微細な意味論的情報とカテゴリレベルの意味論を共同に統合して、視覚-言語モデルが局所的なMG動作を認識できるよう導くFine-Grained Semantic Guidance Learning(FG-SGL)フレームワークを提案します。FG-SAは局所的なモーション特徴の学習を導くために微細な意味手がかりを採用し、CP-Aはカテゴリレベルの意味指導を通じてMG特徴の判別性を高めます。微細な意味論的指導を支援するため、本研究はMGの動的過程を四つの精緻な意味次元で記述する、人間の注釈付きの微細なテキストデータセットを構築します。さらに、複数レベルの対比最適化戦略を設計し、粗い段階から細かい段階へと順序付けて両モジュールを共同で最適化します。実験の結果、FG-SGLは競争力のある性能を達成し、MGRにおける微細な意味論的ガイダンスの有効性を裏付けています。