概要: 大規模言語モデル(LLM)エージェントは、動的な環境において協調のための戦略を自律的に進化させることに苦戦しています。これは主に、粗い全体的な結果が、局所的な方策改善に必要な因果シグナルを覆い隠してしまうためです。本研究では、このボトルネックを多エージェントのクレジット割り当て問題として特定します。この問題は古典的な多エージェント強化学習(MARL)において長年研究されてきましたが、LLMベースのシステムでは十分に対処されていません。こうした観察に基づき、協調型MARLからクレジット割り当てと方策勾配の進化を言語空間へ持ち込む枠組みであるLangMARLを提案します。LangMARLは、エージェント単位の言語クレジット割り当てを導入し、政策改善のために言語空間での勾配進化を先駆けて行い、さらにリプレイされた軌跡からタスクに関連する因果関係を要約して、密なフィードバックを提供し、疎な報酬下での収束を改善します。多様な協調型多エージェント課題にまたがる大規模な実験により、サンプル効率の向上、解釈可能性の向上、そして強力な汎化性能が示されています。
LangMARL: 自然言語マルチエージェント強化学習
arXiv cs.CL / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMベースのマルチエージェントシステムでは、グローバルな結果(アウトカム)シグナルが粗すぎるため、局所的な方策更新に必要な因果的なフィードバックが得られず、効果的な協調を身につけることが難しいと主張している。
- これをマルチエージェントにおけるクレジット割当問題として位置づけ、古典的な協調型MARLと比べて、LLMベースのアプローチではこのボトルネックが依然として十分に扱われていないと論じている。
- LangMARLは、協調型MARLからクレジット割当と方策グラディエント進化の手法を、LLMエージェントの言語空間へ適応する枠組みとして提案される。
- この手法では、エージェント単位の言語クレジット割当を用い、リプレイされた軌跡からタスクに関係する因果関係を要約することで、より密なフィードバックを生成する。疎な報酬下での収束性と性能の向上を狙う。
- 複数の協調型マルチエージェント課題にわたる実験により、サンプル効率、学習された戦略の解釈可能性、および汎化性能の向上が報告されている。




