EfficientSign:インド手話認識のための注意機構強化・軽量アーキテクチャ

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • EfficientSignは、EfficientNet-B0をベースにして「チャネル注意(Squeeze-and-Excitation)」と「空間注意(手指ジェスチャー領域への焦点)」を組み込んだ、スマホ向けの軽量なインド手話(ISL)認識モデルです。
  • 12,637枚のISLアルファベット画像(全26クラス)で5-foldクロスバリデーションを行い、EfficientSignは99.94%(±0.05%)の精度を達成し、ResNet18(99.97%)と同等水準ながらパラメータは約62%削減(4.2M vs 11.2M)しました。
  • EfficientNet-B0の深層特徴(1,280次元)をSVM/Logistic Regression/KNNに入力する追加実験では、最高99.63%(SVM)を含め、従来のSURFベース手法(約92%)を大きく上回る結果となっています。
  • 手作業の特徴設計に頼らず、注意機構によって高精度かつデプロイ可能なISL認識を実現できることを示す研究として位置づけられます。

要旨: どのようにして、電話(スマホ)上で動作する手話認識器を構築するのでしょうか。この問いが本研究の原動力となりました。私たちは EfficientSign を構築しました。これは軽量なモデルで、EfficientNet-B0 を用い、2つの注意(アテンション)モジュールに焦点を当てています(チャネルの注目のための Squeeze-and-Excitation、および手のジェスチャーに注目する空間注意レイヤ)。私たちは、5-fold クロスバリデーションを用いて、インド手話(Indian Sign Language)のアルファベット 12,637 枚の画像(全26クラス)に対し、他の5つの手法と比較して評価しました。EfficientSign は 99.94%(±0.05%)の精度を達成しています。これは ResNet18 の 99.97% の精度と同等の性能ですが、パラメータ数は 62% 少なくなっています(4.2M 対 11.2M)。さらに、深い特徴量(EfficientNet-B0 のプーリング層から取り出した 1,280 次元ベクトル)を古典的な分類器に入力する実験も行いました。SVM は 99.63% の精度を達成し、ロジスティック回帰は 99.03% の精度、KNN は 96.33% の精度でした。これらはいずれも、2015年に SURF ベースの手法が同様のデータセットで達成した 92% を大きく上回ります。私たちの結果は、注意(アテンション)を強化した学習モデルが、巨大なモデルや手で調整した特徴量パイプラインをもはや必要とせずに、ISL認識のための効率的で実運用可能な解決策を提供することを示しています。