MARS:マルチモーダル大規模言語モデルによる支援知能のためのマルチエージェントロボットシステム

arXiv cs.RO / 2026/4/8

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル大規模言語モデル(MLLM)によって駆動される、支援知能のためのスマートホーム向けマルチエージェントロボットシステム「MARS」を導入し、リスクを考慮した計画やユーザーパーソナライズといった課題に取り組む。
  • MARSは、視覚知覚、リスク評価、計画、評価の4つの専門エージェントを用いて、散らかった屋内環境の理解を実行可能で協調された一連の行動へ変換する。
  • 本フレームワークは、階層的なマルチエージェント意思決定によって、言語による計画を行動手順へと基底付け(grounding)することを重視し、動的な家庭環境において適応的な支援を可能にする。
  • 複数のデータセットでの実験により、特にリスクを考慮した計画やマルチエージェントの実行協調において、最先端のマルチモーダルモデルよりも性能が向上することが報告されている。
  • 著者らは、このアプローチを、現実の支援シナリオにおいて協調的なMLLM対応マルチエージェントシステムを導入するための、汎用的な手法(一般化可能な方法論)として位置づけている。

Abstract

マルチモーダル大規模言語モデル(MLLMs)は、異なるモダリティ間の理解と推論において目覚ましい能力を示し、知的な支援システムの新たな機会をもたらしている一方で、既存のシステムは、リスクを意識した計画、ユーザーのパーソナライゼーション、そして散らかった家庭環境における言語プランを実行可能なスキルへ落とし込むことにまだ苦戦しています。本稿では、MLLM によって駆動されるマルチエージェントロボティックシステムである MARS を紹介します。これは、障がいのある人々を支援するスマートホームロボットのための、支援知能向けのシステムであり、設計されています。システムは4つのエージェントを統合します。環境画像から意味的・空間的特徴を抽出する視覚認識エージェント、危険を特定し優先順位付けするためのリスク評価エージェント、実行可能な行動シーケンスを生成する計画エージェント、反復最適化のための評価エージェントです。マルチモーダル知覚と階層的なマルチエージェントの意思決定を組み合わせることで、この枠組みは、動的な屋内環境において適応的で、リスクを意識し、かつパーソナライズされた支援を可能にします。複数のデータセットに関する実験により、提案システムは、最先端のマルチモーダルモデルと比べて、リスクを意識した計画および協調的なマルチエージェント実行において、全体として優れた性能を示すことが確認されました。また、提案手法は、実用的な支援シナリオにおける協調的AIの可能性を示すだけでなく、現実世界の環境で MLLM 対応のマルチエージェントシステムを展開するための、汎用的な方法論も提供します。