スウォームのAcoustoBotを用いた、音響フォトレティック相互作用のためのジェスチャー型ビジュアル学習モデル

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文は、複数のモダリティに対応するAcoustoBotスウォームを、直感的なジェスチャー操作で人がリアルタイムに制御できるための接触不要の視覚学習フレームワークを提案している。
  • ESP32-CAMによるジェスチャー取得、PhaseSpaceによるモーション追跡、集中処理、そしてOpenCLIPベースのVLM(線形プロービング)を組み合わせ、3種類の手ジェスチャーを認識する。
  • 認識したジェスチャーは、空中触覚、指向性オーディオ、音響浮上の3つのモダリティへ対応付けられる。
  • 小規模データセットで約67%だったジェスチャー分類精度は、最大規模データセットでは約98%まで向上し、2台のAcoustoBotを統合した試験では90トライアルでジェスチャーからモダリティへの切り替え精度87.8%が得られた。
  • 平均エンドツーエンド遅延は3.95秒であり、集中処理、固定されたジェスチャーセット、制御された環境での評価といった制約が今後の課題として挙げられている。

Abstract

AcoustoBotsは、ミッドエア・ハプティクス、指向性オーディオ、音響浮揚を提供できるモバイルな音響フォレティック(acoustophoretic)ロボットですが、既存の実装はスクリプト化されたコマンドに依存しており、リアルタイムの人間による制御のための直感的なインターフェースを欠いています。本研究では、多モーダルAcoustoBotプラットフォームに対する非接触の人-スウォーム(群)インタラクションのための、ジェスチャーに基づくビジュアル学習フレームワークを提示します。システムは、ESP32-CAMによるジェスチャー取得、PhaseSpaceによるモーション追跡、集中処理、そしてOpenCLIPベースの視覚学習モデル(VLM)に線形プロービングを組み合わせ、3つの手のジェスチャーを分類し、それらをハプティクス、オーディオ、浮揚の各モダリティへと対応付けます。検証精度は、小規模データセットでは約67%だったものが、最大のデータセットではほぼ98%に向上しました。2台のAcoustoBotsを用いた統合実験では、90試行にわたってジェスチャーからモダリティへの切り替え精度全体で87.8%を達成し、エンドツーエンドの平均レイテンシは3.95秒でした。これらの結果は、多モーダルな人-スウォーム相互作用のために、視覚-言語モデルに基づくジェスチャー・インターフェースを用いることの実現可能性を示しています。現在のシステムは、集中処理、静的なジェスチャーセット、制御された環境での評価によって制約されていますが、より表現力が高く、スケーラブルで、利用しやすいスウォームロボティクス・インターフェースのための基盤を確立するものです。