MARL-GPT：マルチエージェント強化学習のための基盤モデル

arXiv cs.AI / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複数のマルチエージェント強化学習（MARL）環境およびタスクに対して、タスク固有のアーキテクチャではなく単一のモデルで学習し実行するための、GPTベースの基盤モデルであるMARL-GPTを提案する。
MARL-GPTは、大規模なエキスパート軌跡によるオフライン強化学習で訓練され（SMACv2で400M、GRFで100M、POGEMAで1B）、タスク固有のチューニングを回避する単一のトランスフォーマー型観測エンコーダを用いる。
実験の結果、MARL-GPTは、StarCraft Multi-Agent Challenge、Google Research Football、POGEMAを含む検証ベンチマークにおいて、専門的なMARLベースラインに対して競争力のある性能を示す。
著者らは、このアプローチが、LLMがNLPタスクにまたがって汎化するのと同様に、著しく異なるマルチエージェント問題設定に対して一般化する「基盤」型のMARLモデルというより大きな目標を支えると主張している。

Abstract

マルチエージェント強化学習（MARL）における近年の進展は、多くの挑戦的な領域や環境において成功を収めていることが示されていますが、典型的には各タスクごとに専用のモデルが必要です。本研究では、StarCraft Multi-Agent Challenge、Google Research Football、POGEMA など、多様な MARL 環境・タスクにまたがって、単一の GPT ベースモデルが学習し、良好に機能できるようにする首尾一貫した手法を提案します。我々の手法である MARL-GPT は、オフライン強化学習を適用して、専門家の軌跡（SMACv2 で 400M、GRF で 100M、POGEMA で 1B）をスケールさせて学習します。さらに、タスク固有の調整を必要としない、単一のトランスフォーマベースの観測エンコーダを用います。実験の結果、MARL-GPT は、検証したすべての環境において、専用のベースラインと競争力のある性能を達成しました。したがって、我々の知見は、基礎となる MARL モデル（自然言語モデリングにおける ChatGPT、Llama、Mistral などに相当するもの）に向けて道を開くために、非常に異なる多種多様なマルチエージェント問題に対して、マルチタスクのトランスフォーマベースモデルを構築することは、実際に可能であることを示唆しています。

Black Hat Asia

AI Business

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

MARL-GPT：マルチエージェント強化学習のための基盤モデル

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

Black Hat Asia

テスラの巨大AI半導体工場、インテル参画 テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

テスラの巨大AI半導体工場、インテル参画テラファブ「製造技術を刷新」

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化