VA-FastNavi-MARL: マルチメディア駆動のメタ強化学習によるリアルタイムロボット制御

arXiv cs.RO / 2026/4/7

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • VA-FastNavi-MARLは、人とロボットのインタラクションのために、異種で動的なマルチメディア指示(音声と映像)をリアルタイムに応答しながら解釈できるロボットナビゲーション/制御フレームワークとして提示される。
  • この手法は、非同期の音声・映像入力を共有潜在表現へ写像し、指示をナビゲート可能な目標の分布として再構成することで、これまで見たことのない指示に適応するメタ強化学習を可能にする。
  • 重い感覚処理によってボトルネックになりがちなアプローチを避けることで、推論のオーバーヘッドがごく小さいモダリティ非依存のストリーミングを目指し、低遅延な制御を重視する。
  • 複数アームの作業空間に関する実験では、ベースラインと比べてサンプル効率が大幅に向上し、ノイズのあるマルチメディア入力ストリーム下でも堅牢にリアルタイム実行できることが報告される。

Abstract

人とロボットのインタラクションにおいて、リアルタイムの応答性を伴いながら動的で不均一なマルチメディアコマンドを解釈することは極めて重要です。本稿では、非同期の音声・映像入力を統一された潜在表現へと整合させるフレームワークVA-FastNavi-MARLを提案します。多様な指示を、メタ強化学習によってナビゲート可能な目標の分布として扱うことで、推論のオーバーヘッドをほとんど増やすことなく、未見の指令への迅速な適応を実現します。重い感覚処理にボトルネックが生じる既存手法とは異なり、本手法のモダリティ非依存のストリームは、シームレスで低遅延な制御を保証します。複数アームのワークスペースでの検証により、VA-FastNavi-MARLがサンプル効率の面でベースラインを大幅に上回り、ノイズのあるマルチメディアストリーム下でも頑健でリアルタイムな実行を維持することを確認しました。