MARL-GPT:マルチエージェント強化学習のための基盤モデル

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数のマルチエージェント強化学習(MARL)環境およびタスクに対して、タスク固有のアーキテクチャではなく単一のモデルで学習し実行するための、GPTベースの基盤モデルであるMARL-GPTを提案する。
  • MARL-GPTは、大規模なエキスパート軌跡によるオフライン強化学習で訓練され(SMACv2で400M、GRFで100M、POGEMAで1B)、タスク固有のチューニングを回避する単一のトランスフォーマー型観測エンコーダを用いる。
  • 実験の結果、MARL-GPTは、StarCraft Multi-Agent Challenge、Google Research Football、POGEMAを含む検証ベンチマークにおいて、専門的なMARLベースラインに対して競争力のある性能を示す。
  • 著者らは、このアプローチが、LLMがNLPタスクにまたがって汎化するのと同様に、著しく異なるマルチエージェント問題設定に対して一般化する「基盤」型のMARLモデルというより大きな目標を支えると主張している。

Abstract

マルチエージェント強化学習(MARL)における近年の進展は、多くの挑戦的な領域や環境において成功を収めていることが示されていますが、典型的には各タスクごとに専用のモデルが必要です。本研究では、StarCraft Multi-Agent Challenge、Google Research Football、POGEMA など、多様な MARL 環境・タスクにまたがって、単一の GPT ベースモデルが学習し、良好に機能できるようにする首尾一貫した手法を提案します。我々の手法である MARL-GPT は、オフライン強化学習を適用して、専門家の軌跡(SMACv2 で 400M、GRF で 100M、POGEMA で 1B)をスケールさせて学習します。さらに、タスク固有の調整を必要としない、単一のトランスフォーマベースの観測エンコーダを用います。実験の結果、MARL-GPT は、検証したすべての環境において、専用のベースラインと競争力のある性能を達成しました。したがって、我々の知見は、基礎となる MARL モデル(自然言語モデリングにおける ChatGPT、Llama、Mistral などに相当するもの)に向けて道を開くために、非常に異なる多種多様なマルチエージェント問題に対して、マルチタスクのトランスフォーマベースモデルを構築することは、実際に可能であることを示唆しています。