VA-FastNavi-MARL: マルチメディア駆動のメタ強化学習によるリアルタイムロボット制御
arXiv cs.RO / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- VA-FastNavi-MARLは、人とロボットのインタラクションのために、異種で動的なマルチメディア指示(音声と映像)をリアルタイムに応答しながら解釈できるロボットナビゲーション/制御フレームワークとして提示される。
- この手法は、非同期の音声・映像入力を共有潜在表現へ写像し、指示をナビゲート可能な目標の分布として再構成することで、これまで見たことのない指示に適応するメタ強化学習を可能にする。
- 重い感覚処理によってボトルネックになりがちなアプローチを避けることで、推論のオーバーヘッドがごく小さいモダリティ非依存のストリーミングを目指し、低遅延な制御を重視する。
- 複数アームの作業空間に関する実験では、ベースラインと比べてサンプル効率が大幅に向上し、ノイズのあるマルチメディア入力ストリーム下でも堅牢にリアルタイム実行できることが報告される。




