Agent Q-Mix:強化学習によるLLMマルチエージェントシステムのための適切なアクション選択

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、トポロジー選択を協調型MARL(協調的マルチエージェント強化学習)問題として扱うことで、LLMマルチエージェントシステムにおいてエージェントの選択と接続方法を学習する強化学習フレームワーク「Agent Q-Mix」を提案する。
  • QMIXの価値分解を用い、分散型の通信判断を行う。各エージェントは通信アクションを選択することで、ラウンドごとの通信グラフを共同で形成する。
  • アーキテクチャは、トポロジーを考慮したGNNエンコーダ、GRUベースのメモリ、そしてCTDE(集中学習・分散実行)設定におけるエージェントごとのQヘッドを組み合わせる。
  • Agent Q-Mixは、タスク精度とトークンコストのバランスを取る報酬を最適化し、性能と効率の両立を目指す。
  • コーディング/推論/数学の7つのベンチマーク(Humanity’s Last Exam(HLE)を含む)にわたって、本手法は従来手法よりも平均精度が高く、トークン効率・頑健性も優れていると報告している。たとえば、Gemini-3.1-Flash-LiteでHLE精度20.8%を達成したとされる。

概要: 大規模言語モデル(LLM)は、さまざまなタスクの完了において目覚ましい性能を示してきました。しかし、複雑な問題を解くには、多数のエージェントの協調がしばしば必要となり、根本的な問いが生じます。すなわち、これらのエージェントをどのように効果的に選択し、相互接続するのか、という点です。本論文では、
\textbf{Agent Q-Mix} を提案します。これは、トポロジ選択を協調型マルチエージェント強化学習(MARL)問題として再定式化する強化学習フレームワークです。提案手法は、QMIX の価値因数分解を用いて分散型の通信意思決定を学習し、各エージェントが通信アクションの集合から選択することで、ラウンドごとの通信グラフを共同で誘導します。Agent Q-Mix の中核には、トポロジを考慮した GNN エンコーダ、GRU メモリ、そしてエージェントごとの Q-head を、中央集権型学習・分散実行(CTDE)のパラダイムのもとで統合した設計があります。このフレームワークは、タスク精度とトークンコストのバランスを取る報酬関数を最適化します。コーディング、推論、数学にまたがる7つの主要ベンチマークにおいて、Agent Q-Mix は既存手法と比較して最高の平均精度を達成し、エージェント故障に対する優れたトークン効率と頑健性も示します。特筆すべきは、バックボーンとして Gemini-3.1-Flash-Lite を用いた難題の Humanity's Last Exam(HLE)において、Agent Q-Mix が 20.8\% の精度を達成し、Microsoft Agent Framework(19.2\%)および LangGraph(19.2\%)を上回り、その後に OpenClaw による AutoGen と Lobster が続く点です。これらの結果は、学習された分散型トポロジ最適化が、マルチエージェント推論の限界を押し広げる上で有効であることを示しています。

Agent Q-Mix:強化学習によるLLMマルチエージェントシステムのための適切なアクション選択 | AI Navigate