命令からイベントへ:音によりトリガーされるモバイル操作
arXiv cs.RO / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、モバイル操作の研究が命令駆動パラダイムに過度に焦点を当ててきたため、エージェントが環境内の動的な出来事に対して自律的に反応することが制限されていると主張する。
- そこで、音を発する物体を、明示的な手順ごとの指示なしに知覚し相互作用することを要求する新たな課題設定「音によりトリガーされるモバイル操作」を提案する。
- これを可能にするため、著者らはシミュレーション環境において、音響レンダリングと物理的に根ざした相互作用を統合するデータプラットフォーム「Habitat-Echo」を開発する。
- 本研究は、聴覚イベントを検出し、適切な相互作用を判断するための、高レベルのタスクプランナと低レベルのポリシーモデルからなるベースラインシステムを提案する。
- 実験では、音響の干渉が重なるデュアルソース構成を含めて示され、エージェントが主要な音源を特定し、まずそれと相互作用したうえで、次に二次的な物体の操作へ進めることができることを、堅牢性として実証している。

