CoFlow:オフライン複数エージェント意思決定のための協調的な少ステップフロー

arXiv cs.AI / 2026/5/5

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、生成モデルを用いるオフライン複数エージェント強化学習では、多数の反復サンプリング手順を踏まなくてもエージェント間の協調を維持できると主張しています。
  • そのために、単一パスの複数エージェント生成でも協調性を保つための枠組みとして、Coordinated few-step Flow(CoFlow)を提案し、Joint結合された速度場を Coordinated Velocity Attention(CVA)と Adaptive Coordination Gating で実現します。
  • CoFlowでは、メモリ負荷の大きいヤコビアン・ベクトル積の逆伝播の代わりに、有限差分の整合性サロゲートを使い、平均化された速度場を通る2つのstop-gradientフォワードパスで置き換えています。
  • MPE、MA-MuJoCo、SMAC の60構成にわたる実験で、CoFlowはエピソードリターンにおいてガウス/価値ベース、トランスフォーマ、拡散、既存フローベースラインと同等以上の性能を示します。
  • 協調性プローブとデノイジングステップのスイープにより、改善は主にエージェント間の協調(個々の能力ではない)から生じており、集中型・分散型の両方で1〜3ステップのデノイジングで最先端の協調品質を達成することが示されます。

要旨: 生成モデルは、オフライン・マルチエージェント強化学習(MARL)における主要なパラダイムとして登場しているが、既存の手法は多くの反復的なサンプリング手順を必要とする。近年の少数ステップによる高速化は、共同の教師を独立した学生へ蒸留するか、あるいは各エージェントに対して平均化された速度を独立に適用することによって行われており、少数ステップ推論にはエージェント間の協調を犠牲にする必要があることを示唆している。私たちは、このトレードオフは必須ではないことを示す。速度場が本来、共同結合(joint-coupled)されていれば、単一パスのマルチエージェント生成は協調を維持できる。我々は、協調少数ステップフロー(Coordinated few-step Flow, CoFlow)を提案する。これは、協調速度アテンション(Coordinated Velocity Attention, CVA)と適応的協調ゲーティングを組み合わせたアーキテクチャである。さらに、有限差分による整合性サロゲートにより、平均化された速度場を通じたヤコビアン・ベクトル積の逆伝播を、メモリを大きく消費することなく置き換えることができ、2つのストップグラディエント付きの順伝播(forward passes)で実現する。MPE、MA-MuJoCo、SMACにまたがる60の構成において、CoFlowはエピソードリターンで、Gaussian/価値ベース、トランスフォーマー、拡散、ならびに先行フローのベースラインに対して一致または上回る。3つの独立した協調プローブにより、改善がエージェントごとの能力ではなく、エージェント間の協調を通じて流れていることが確認される。デノイジングステップの探索では、単一パス推論であらゆる構成を十分にカバーできることが示される。CoFlowは、集中型および分散型の両方の実行において、1〜3ステップのデノイジングで最先端の協調品質に到達する。プロジェクトページ: https://github.com/Guowei-Zou/coflow。