スウォームのAcoustoBotを用いた、音響フォトレティック相互作用のためのジェスチャー型ビジュアル学習モデル

arXiv cs.RO / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

この論文は、複数のモダリティに対応するAcoustoBotスウォームを、直感的なジェスチャー操作で人がリアルタイムに制御できるための接触不要の視覚学習フレームワークを提案している。
ESP32-CAMによるジェスチャー取得、PhaseSpaceによるモーション追跡、集中処理、そしてOpenCLIPベースのVLM（線形プロービング）を組み合わせ、3種類の手ジェスチャーを認識する。
認識したジェスチャーは、空中触覚、指向性オーディオ、音響浮上の3つのモダリティへ対応付けられる。
小規模データセットで約67%だったジェスチャー分類精度は、最大規模データセットでは約98%まで向上し、2台のAcoustoBotを統合した試験では90トライアルでジェスチャーからモダリティへの切り替え精度87.8%が得られた。
平均エンドツーエンド遅延は3.95秒であり、集中処理、固定されたジェスチャーセット、制御された環境での評価といった制約が今後の課題として挙げられている。

Abstract

AcoustoBotsは、ミッドエア・ハプティクス、指向性オーディオ、音響浮揚を提供できるモバイルな音響フォレティック（acoustophoretic）ロボットですが、既存の実装はスクリプト化されたコマンドに依存しており、リアルタイムの人間による制御のための直感的なインターフェースを欠いています。本研究では、多モーダルAcoustoBotプラットフォームに対する非接触の人-スウォーム（群）インタラクションのための、ジェスチャーに基づくビジュアル学習フレームワークを提示します。システムは、ESP32-CAMによるジェスチャー取得、PhaseSpaceによるモーション追跡、集中処理、そしてOpenCLIPベースの視覚学習モデル（VLM）に線形プロービングを組み合わせ、3つの手のジェスチャーを分類し、それらをハプティクス、オーディオ、浮揚の各モダリティへと対応付けます。検証精度は、小規模データセットでは約67%だったものが、最大のデータセットではほぼ98%に向上しました。2台のAcoustoBotsを用いた統合実験では、90試行にわたってジェスチャーからモダリティへの切り替え精度全体で87.8%を達成し、エンドツーエンドの平均レイテンシは3.95秒でした。これらの結果は、多モーダルな人-スウォーム相互作用のために、視覚-言語モデルに基づくジェスチャー・インターフェースを用いることの実現可能性を示しています。現在のシステムは、集中処理、静的なジェスチャーセット、制御された環境での評価によって制約されていますが、より表現力が高く、スケーラブルで、利用しやすいスウォームロボティクス・インターフェースのための基盤を確立するものです。

Black Hat USA

AI Business

Googleの“AI講座”人気　無料枠1万人分が1日で終了　受講者は「Google AI Pro」3カ月無料

ITmedia AI+

Anthropicと協業のNEC、「Claude Code」をグループ3万人に展開　「Mythos」利用可否については「回答差し控える」

ITmedia AI+

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

ITmedia AI+

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ITmedia AI+

スウォームのAcoustoBotを用いた、音響フォトレティック相互作用のためのジェスチャー型ビジュアル学習モデル

要点

Abstract

関連記事

Black Hat USA

Googleの“AI講座”人気　無料枠1万人分が1日で終了　受講者は「Google AI Pro」3カ月無料

Anthropicと協業のNEC、「Claude Code」をグループ3万人に展開　「Mythos」利用可否については「回答差し控える」

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat USA

Googleの“AI講座”人気 無料枠1万人分が1日で終了 受講者は「Google AI Pro」3カ月無料

Anthropicと協業のNEC、「Claude Code」をグループ3万人に展開 「Mythos」利用可否については「回答差し控える」

政府AI「源内」オープンソース化 GitHubで公開、商用利用もOK 民間と共創へ

「DeepSeek-V4」登場 オープンながら“世界トップのクローズドモデルに匹敵”うたう

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Googleの“AI講座”人気　無料枠1万人分が1日で終了　受講者は「Google AI Pro」3カ月無料

Anthropicと協業のNEC、「Claude Code」をグループ3万人に展開　「Mythos」利用可否については「回答差し控える」

政府AI「源内」オープンソース化　GitHubで公開、商用利用もOK　民間と共創へ

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう