MARLIN:言語に基づくロボット間交渉に導かれるマルチエージェント強化学習

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • MARLINは、多機械(マルチロボット)向けの強化学習を、言語によるロボット間交渉(LLM)で安全性と探索効率を高めるハイブリッド枠組みとして提案している。
  • 具体的には、強化学習ポリシーが十分学習する前にLLMが高レベル計画を行い、言語で交渉・計画を生成してポリシー学習を導く。
  • 学習中は強化学習とLLMベースの交渉(計画)を動的に切り替え、初期段階の危険な挙動につながりうる探索を抑える設計になっている。
  • シミュレーションだけでなく実機ロボットでも評価し、ローカル/リモート双方の言語モデルを用いて、標準的なマルチエージェント強化学習より初期性能を高めつつ最終性能を低下させない結果を報告している。

要旨: マルチエージェント強化学習は、マルチロボットシステムを訓練するための重要な方法です。複数のエピソードにわたって、ロボットの性能に応じて報酬を与えたり罰したりすることで、訓練し、その後実世界に展開できます。しかし、十分に訓練されていない方策は、学習初期段階において安全でない行動につながり得ます。私たちは、言語ベースのエージェント間交渉(Inter-robot Negotiation)によって導かれるマルチエージェント強化学習、すなわち MARLIN を提案します。これはハイブリッドな枠組みであり、大規模言語モデルが強化学習方策が有効な行動をまだ学習していない段階において、高レベルの計画を提供します。ロボットは言語モデルを用いて行動を交渉し、方策学習を導く計画を生成します。このシステムは、訓練中に強化学習と、言語モデルに基づく交渉とを動的に切り替え、安全でより効果的な探索を可能にします。MARLIN は、ローカルおよびリモートの言語モデルを用いたシミュレーションロボットと物理ロボットの両方で評価されます。結果は、標準的なマルチエージェント強化学習と比べて、このハイブリッド手法が最終的な性能を低下させることなく、初期訓練においてより高い性能を達成することを示しています。コードは https://github.com/SooratiLab/MARLIN で公開されています。