時空間行列表現に対するCNNによる動的LIBRASジェスチャ認識
arXiv cs.AI / 2026/3/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、21の手の骨格キーポイントを抽出するためにMediaPipe Hand Landmarkerを用い、その後CNNで分類することで、動的LIBRAS(ブラジル手話)のジェスチャ認識手法を提案している。
- ジェスチャはキーポイントから導出される90×21の時空間行列として符号化され、CNNにより11の静的および動的ジェスチャクラスを認識できる。
- リアルタイムでの連続認識のため、本手法ではスライディングウィンドウと時間フレームの3重化を用い、再帰型ネットワークを避けつつも時間的な文脈を捉える。
- 実験では、低照度条件で95%の精度、通常照明で92%の精度が報告されており、家庭内の自動化デバイス制御への適用可能性が示されている。
- 著者らは、幅広いユーザ範囲を対象にしたさらなる体系的なテストが必要であり、多様な集団における汎化性能をより適切に評価することが求められるとしている。



