CoFi-PGMA:フィルタリングされたフィードバック下におけるマルチエージェントLLMの反事実ポリシー勾配

arXiv cs.LG / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ルーティングや協調の仕組みによって各エージェントの学習シグナルが「フィルタリング」されるマルチエージェントLLMにおける学習を扱う。
  • その結果、単一ポリシー向けに設計された標準的なRLHF目的は、選択ゲート付きのフィードバック(ルーティング)や個々の貢献を見えにくくする共有報酬(協調)ではミススペシファイドになると主張する。
  • 著者らは、限界貢献(marginal contribution)に基づく反事実のエージェント別目的関数を構築することで、両方の設定で学習シグナルを補正する統一フレームワークCoFi-PGMAを提案する。
  • ルーティングでは選択ゲート付きフィードバックに対するオフポリシー補正を与え、協調ではクレジット割り当てのためのleave-one-out差分報酬に相当する。
  • さらに、softmaxルーティングがリスク感応的なインセンティブを生むことを分析し、多ターン対応の実用的な学習アルゴリズムを提示して、実データの推論データセットで検証している。

Abstract

大規模言語モデル(LLM)の導入はますます、多数のモデルがルーティング機構によって競合するか、協調して最終回答を生成するかのいずれかを行うマルチエージェント・アーキテクチャに依存するようになってきています。どちらの設定においても、各エージェントが受け取る学習シグナルは、システム機構によってフィルタリングされます。ルーティングでは、選択された応答だけが評価されるため、選択ゲート付きのフィードバックが生成されます。一方、協調では、各エージェントの個々の寄与が見えにくくなる共有報酬が与えられます。その結果、単一の導入済みポリシー向けに設計された標準的なRLHF目的は不適切(ミススペシファイド)になります。我々は、マルチエージェントLLMシステムにおけるフィルタリングされたフィードバックのもとで学習するための統一的枠組み、CoFi-PGMA(Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs)を提案します。我々のアプローチは、各エージェントの限界寄与に基づく反事実(カウンターファクチュアル)の個別エージェント学習目的を導出し、ルーティング機構と協調機構の両方において学習シグナルを補正します。ルーティングシステムでは、この目的は選択ゲート付きフィードバックに対するオフポリシー補正に対応し、協調システムでは、信用割当(クレジットアサインメント)のためのleave-one-out差分報酬へと帰着します。さらに、ソフトマックス・ルーティングがリスクに敏感な誘因をどのように生み出すかを分析し、反事実推定器、多ターンを考慮した報酬、政策最適化手法を統合した実用的な学習アルゴリズムを提示するとともに、実世界の推論データセットでこのアプローチを実証します。