AI Navigate

Fast-HaMeR: 知識蒸馏を用いた3D手のメッシュ再構成の高速化

arXiv cs.CV / 2026/3/18

📰 ニュースModels & Research

要点

  • Fast-HaMeRは、軽量なニューラルバックボーンと知識蒸馏を組み合わせることで、低電力デバイス上でリアルタイム性能を実現しつつ、3D手のメッシュ再構成を高速化します。
  • 本手法は HaMeR の ViT-H バックボーンを MobileNet、MobileViT、ConvNeXt、ResNet などの軽量バックボーンに置換して、モデルサイズを削減します。
  • 出力レベル、特徴レベル、ハイブリッドの3つの蒸留戦略を評価し、異なる容量でどの戦略が最も良い小型モデルの性能をもたらすかを分析します。
  • 実験では、推論が約1.5×高速化され、約0.4 mmの精度低下にとどまり、元のパラメータ数の約35%を使用します。
  • 本研究は VR/AR、HCI、ロボティクス、医療分野での実用的な展開を強調しており、コードとモデルは GitHub で公開されています。

要旨: 高速かつ正確な3D手の再構築は、VR/AR、ヒューマン-コンピュータ・インタラクション、ロボティクス、医療におけるリアルタイムアプリケーションに不可欠である。最先端の多くの手法は重いモデルに依存しており、ヘッドセット、スマートフォン、組み込みシステムのようなリソース制約のあるデバイスでの利用を制限している。本論文では、軽量なニューラルネットワークの使用とKnowledge Distillation(知識蒸留)を組み合わせることで、複雑な3D手再構築モデルをより速く・軽量にしつつ、再構築精度を同等程度に維持できる方法を検討する。本手法はさまざまな手再構築フレームワークに適している一方で、現在再構築精度の点で首位を占めるHaMeRモデルの向上を主に目指す。その元のViT-Hバックボーンを、MobileNet、MobileViT、ConvNeXt、ResNetなどの軽量な代替に置き換え、出力レベル、特徴レベル、そしてその両方を組み合わせたハイブリッドの3つの知識蒸留戦略を評価する。実験の結果、元のサイズのわずか35%の軽量バックボーンを使用すると、推論速度が1.5倍速くなる一方、性能品質を類似のまま維持し、精度差は0.4mmにとどまることが示された。より具体的には、出力レベル蒸留が学生モデルの性能を著しく改善する一方、特徴レベル蒸留は容量の大きい学生にとってより効果的であることを示す。全体として、低電力デバイス上での実世界アプリケーションを効率的に実現する道を開く。コードとモデルは以下のURLで公開されている https://github.com/hunainahmedj/Fast-HaMeR。