スウォームのAcoustoBotを用いた、音響フォトレティック相互作用のためのジェスチャー型ビジュアル学習モデル
arXiv cs.RO / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この論文は、複数のモダリティに対応するAcoustoBotスウォームを、直感的なジェスチャー操作で人がリアルタイムに制御できるための接触不要の視覚学習フレームワークを提案している。
- ESP32-CAMによるジェスチャー取得、PhaseSpaceによるモーション追跡、集中処理、そしてOpenCLIPベースのVLM(線形プロービング)を組み合わせ、3種類の手ジェスチャーを認識する。
- 認識したジェスチャーは、空中触覚、指向性オーディオ、音響浮上の3つのモダリティへ対応付けられる。
- 小規模データセットで約67%だったジェスチャー分類精度は、最大規模データセットでは約98%まで向上し、2台のAcoustoBotを統合した試験では90トライアルでジェスチャーからモダリティへの切り替え精度87.8%が得られた。
- 平均エンドツーエンド遅延は3.95秒であり、集中処理、固定されたジェスチャーセット、制御された環境での評価といった制約が今後の課題として挙げられている。
