時空間行列表現に対するCNNによる動的LIBRASジェスチャ認識

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、21の手の骨格キーポイントを抽出するためにMediaPipe Hand Landmarkerを用い、その後CNNで分類することで、動的LIBRAS（ブラジル手話）のジェスチャ認識手法を提案している。
ジェスチャはキーポイントから導出される90×21の時空間行列として符号化され、CNNにより11の静的および動的ジェスチャクラスを認識できる。
リアルタイムでの連続認識のため、本手法ではスライディングウィンドウと時間フレームの3重化を用い、再帰型ネットワークを避けつつも時間的な文脈を捉える。
実験では、低照度条件で95%の精度、通常照明で92%の精度が報告されており、家庭内の自動化デバイス制御への適用可能性が示されている。
著者らは、幅広いユーザ範囲を対象にしたさらなる体系的なテストが必要であり、多様な集団における汎化性能をより適切に評価することが求められるとしている。

Abstract

本論文は、2つのモデルの構成に基づく動的ハンドジェスチャー認識手法を提案する。1つは、手の21個の骨格キーポイントを抽出するMediaPipe Hand Landmarkerであり、もう1つは、それらのキーポイントの90×21の時空間マトリクス表現からジェスチャーを分類するように学習された畳み込みニューラルネットワーク（CNN）である。本手法は、家庭内の自動化システムにおけるデバイス制御のためのLIBRAS（ブラジル手話）のジェスチャー認識に適用され、静的ジェスチャーと動的ジェスチャーの全11クラスを扱う。リアルタイム推論では、時間フレームの3重化を伴うスライディングウィンドウを用いることで、再帰型ネットワークなしで連続認識を可能にする。テストでは、低照度条件で955の精度、通常照明下で925の精度が得られた。結果は本手法が有効であることを示しているが、汎化性能をより徹底的に評価するためには、利用者の多様性をより広げた体系的な実験が必要である。