FG-SGL: マイクロジェスチャー認識のためのモーションプロセス分解による細粒度セマンティックガイダンス学習

arXiv cs.CV / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

FG-SGL は、微細な粒度とカテゴリレベルのセマンティクスを共同で統合し、マイクロジェスチャー認識のためのビジョン-言語モデルを指導するフレームワークであり、クラス間の微妙な運動差異に対処する。
FG-SGL は、局所的な動作特徴を学習するための細粒度セマンティック手掛かりを活用する FG-SA と、カテゴリレベルのセマンティックガイダンスを通じて特徴の識別性を向上させる CP-A を含む。
細粒度の指導を支援するために、本手法は、マイクロジェスチャーの動的過程を人間の注釈で記述した、4つの精緻な意味次元からなる細粒度のテキストデータセットを構築する。
多レベル対照学習最適化戦略は、粗い段階から細い段階へと段階的に両モジュールを共同最適化し、実験により競争力のある性能を示している。

要旨：マイクロジェスチャ認識（MGR）は、クラス間の微妙な差異によって困難です。既存の手法はカテゴリレベルの監督に依存しており、微妙で局所的な動作差を捉えるには不十分です。したがって、本論文は、微細な意味論的情報とカテゴリレベルの意味論を共同に統合して、視覚-言語モデルが局所的なMG動作を認識できるよう導くFine-Grained Semantic Guidance Learning（FG-SGL）フレームワークを提案します。FG-SAは局所的なモーション特徴の学習を導くために微細な意味手がかりを採用し、CP-Aはカテゴリレベルの意味指導を通じてMG特徴の判別性を高めます。微細な意味論的指導を支援するため、本研究はMGの動的過程を四つの精緻な意味次元で記述する、人間の注釈付きの微細なテキストデータセットを構築します。さらに、複数レベルの対比最適化戦略を設計し、粗い段階から細かい段階へと順序付けて両モジュールを共同で最適化します。実験の結果、FG-SGLは競争力のある性能を達成し、MGRにおける微細な意味論的ガイダンスの有効性を裏付けています。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

FG-SGL: マイクロジェスチャー認識のためのモーションプロセス分解による細粒度セマンティックガイダンス学習

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer