協調的マルチエージェント強化学習におけるインセンティブ認識型の報酬設計を導く大規模言語モデル

arXiv cs.LG / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フィードバックが疎な状況でインセンティブの不整合や協調の不全を避えるために、協調的マルチエージェント強化学習のための補助報酬を自動的に設計する方法を扱う。
環境の計測（instrumentation）から実行可能な報酬プログラムを生成する、LLM（大規模言語モデル）に導かれた枠組みを提案し、それらを形式的に有効な探索空間に制限する。
候補となる報酬プログラムは、固定された計算予算のもとでマルチエージェント方策を新たに学習し、疎なタスク報酬を最大化するものを選択する。
4つのOvercooked-AIレイアウトでの実験により、反復的な探索生成がタスク報酬と配送数を改善することが示され、最大の効果は相互作用のボトルネックが重い設定で得られる。
学習されたシェーピング（報酬整形）要素の分析から、本手法は典型的な手作業の報酬設計よりも、より相互依存的な行動選択と、より整合した協調のための信号を生成することが示唆される。

日経XTECH

Mistral AI Blog

Dev.to

Dev.to

Dev.to