SilLang:シルエット言語エンコーディングによる歩行認識の改善

arXiv cs.CV / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、二値の歩行シルエットを自然言語のトークンに類似した離散的な系列として扱うことで、時間的な動作パターンをより適切にモデル化する歩行認識手法「SilLang」を提案する。
  • シルエットのトークン分布を整形する「Contour-Velocity Tokenizer」を導入し、トークンの出現頻度や密度の違いによって生じる不整合を解消し、テキストトークン空間との整合性を高める。
  • SilLangは、LLMに由来する離散的な言語埋め込みを取り込むことで、視覚的なシルエット表現を強化するデュアルブランチ構成を用いる。
  • SUSTech1K、GREW、Gait3Dでの実験により、一般的な歩行バックボーンに実装した場合、最先端の歩行認識手法に対して一貫した改善が示される。