CoFi-PGMA:フィルタリングされたフィードバック下におけるマルチエージェントLLMの反事実ポリシー勾配
arXiv cs.LG / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ルーティングや協調の仕組みによって各エージェントの学習シグナルが「フィルタリング」されるマルチエージェントLLMにおける学習を扱う。
- その結果、単一ポリシー向けに設計された標準的なRLHF目的は、選択ゲート付きのフィードバック(ルーティング)や個々の貢献を見えにくくする共有報酬(協調)ではミススペシファイドになると主張する。
- 著者らは、限界貢献(marginal contribution)に基づく反事実のエージェント別目的関数を構築することで、両方の設定で学習シグナルを補正する統一フレームワークCoFi-PGMAを提案する。
- ルーティングでは選択ゲート付きフィードバックに対するオフポリシー補正を与え、協調ではクレジット割り当てのためのleave-one-out差分報酬に相当する。
- さらに、softmaxルーティングがリスク感応的なインセンティブを生むことを分析し、多ターン対応の実用的な学習アルゴリズムを提示して、実データの推論データセットで検証している。




