MARLIN：言語に基づくロボット間交渉に導かれるマルチエージェント強化学習

arXiv cs.RO / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

MARLINは、多機械（マルチロボット）向けの強化学習を、言語によるロボット間交渉（LLM）で安全性と探索効率を高めるハイブリッド枠組みとして提案している。
具体的には、強化学習ポリシーが十分学習する前にLLMが高レベル計画を行い、言語で交渉・計画を生成してポリシー学習を導く。
学習中は強化学習とLLMベースの交渉（計画）を動的に切り替え、初期段階の危険な挙動につながりうる探索を抑える設計になっている。
シミュレーションだけでなく実機ロボットでも評価し、ローカル／リモート双方の言語モデルを用いて、標準的なマルチエージェント強化学習より初期性能を高めつつ最終性能を低下させない結果を報告している。

要旨: マルチエージェント強化学習は、マルチロボットシステムを訓練するための重要な方法です。複数のエピソードにわたって、ロボットの性能に応じて報酬を与えたり罰したりすることで、訓練し、その後実世界に展開できます。しかし、十分に訓練されていない方策は、学習初期段階において安全でない行動につながり得ます。私たちは、言語ベースのエージェント間交渉（Inter-robot Negotiation）によって導かれるマルチエージェント強化学習、すなわち MARLIN を提案します。これはハイブリッドな枠組みであり、大規模言語モデルが強化学習方策が有効な行動をまだ学習していない段階において、高レベルの計画を提供します。ロボットは言語モデルを用いて行動を交渉し、方策学習を導く計画を生成します。このシステムは、訓練中に強化学習と、言語モデルに基づく交渉とを動的に切り替え、安全でより効果的な探索を可能にします。MARLIN は、ローカルおよびリモートの言語モデルを用いたシミュレーションロボットと物理ロボットの両方で評価されます。結果は、標準的なマルチエージェント強化学習と比べて、このハイブリッド手法が最終的な性能を低下させることなく、初期訓練においてより高い性能を達成することを示しています。コードは https://github.com/SooratiLab/MARLIN で公開されています。

Black Hat Asia

AI Business

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

日経XTECH

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

日経XTECH

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

日経XTECH

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

日経XTECH

MARLIN：言語に基づくロボット間交渉に導かれるマルチエージェント強化学習

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

テスラのE2E自動運転技術FSD、オランダ承認 「欧州初」一般道で手放し

リコーのマルチモーダルAI、図面から寸法を読み出し普通公差を適用

26年の世界半導体売上高、64％増の1.3兆ドル 米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信 ロボとMECの連係が鍵

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラのE2E自動運転技術FSD、オランダ承認「欧州初」一般道で手放し

26年の世界半導体売上高、64％増の1.3兆ドル米ガートナー予測

ソフトバンクなど3社、フィジカルAIへの通信ロボとMECの連係が鍵