Agent Q-Mix：強化学習によるLLMマルチエージェントシステムのための適切なアクション選択

arXiv cs.CL / 2026/4/3

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、トポロジー選択を協調型MARL（協調的マルチエージェント強化学習）問題として扱うことで、LLMマルチエージェントシステムにおいてエージェントの選択と接続方法を学習する強化学習フレームワーク「Agent Q-Mix」を提案する。
QMIXの価値分解を用い、分散型の通信判断を行う。各エージェントは通信アクションを選択することで、ラウンドごとの通信グラフを共同で形成する。
アーキテクチャは、トポロジーを考慮したGNNエンコーダ、GRUベースのメモリ、そしてCTDE（集中学習・分散実行）設定におけるエージェントごとのQヘッドを組み合わせる。
Agent Q-Mixは、タスク精度とトークンコストのバランスを取る報酬を最適化し、性能と効率の両立を目指す。
コーディング／推論／数学の7つのベンチマーク（Humanity’s Last Exam（HLE）を含む）にわたって、本手法は従来手法よりも平均精度が高く、トークン効率・頑健性も優れていると報告している。たとえば、Gemini-3.1-Flash-LiteでHLE精度20.8%を達成したとされる。

概要: 大規模言語モデル（LLM）は、さまざまなタスクの完了において目覚ましい性能を示してきました。しかし、複雑な問題を解くには、多数のエージェントの協調がしばしば必要となり、根本的な問いが生じます。すなわち、これらのエージェントをどのように効果的に選択し、相互接続するのか、という点です。本論文では、
\textbf{Agent Q-Mix} を提案します。これは、トポロジ選択を協調型マルチエージェント強化学習（MARL）問題として再定式化する強化学習フレームワークです。提案手法は、QMIX の価値因数分解を用いて分散型の通信意思決定を学習し、各エージェントが通信アクションの集合から選択することで、ラウンドごとの通信グラフを共同で誘導します。Agent Q-Mix の中核には、トポロジを考慮した GNN エンコーダ、GRU メモリ、そしてエージェントごとの Q-head を、中央集権型学習・分散実行（CTDE）のパラダイムのもとで統合した設計があります。このフレームワークは、タスク精度とトークンコストのバランスを取る報酬関数を最適化します。コーディング、推論、数学にまたがる7つの主要ベンチマークにおいて、Agent Q-Mix は既存手法と比較して最高の平均精度を達成し、エージェント故障に対する優れたトークン効率と頑健性も示します。特筆すべきは、バックボーンとして Gemini-3.1-Flash-Lite を用いた難題の Humanity's Last Exam（HLE）において、Agent Q-Mix が 20.8\% の精度を達成し、Microsoft Agent Framework（19.2\%）および LangGraph（19.2\%）を上回り、その後に OpenClaw による AutoGen と Lobster が続く点です。これらの結果は、学習された分散型トポロジ最適化が、マルチエージェント推論の限界を押し広げる上で有効であることを示しています。

Black Hat Asia

AI Business

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

日経XTECH

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

日経XTECH

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

Tech.eu

ChatGPTは月額20ドル。代替を2.99ドルで作った。

Dev.to

Agent Q-Mix：強化学習によるLLMマルチエージェントシステムのための適切なアクション選択

要点

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

フィジカルAIに沸く建設業、i-Constructionの教訓生かしプロセス変革に踏み込め

エヌビディア、「脱・GPU一本足」へ 推論特化チップ「Groq 3 LPU」発表

Mistralが8億3000万ドルを調達、9finがユニコーン到達、そして新たなTech.euサミット登壇者が発表

ChatGPTは月額20ドル。代替を2.99ドルで作った。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

エヌビディア、「脱・GPU一本足」へ推論特化チップ「Groq 3 LPU」発表