STAIRS-Former: インタリーブド再帰構造トランスフォーマーによる時空間注意機構を備えたオフラインの多タスク・多エージェント強化学習
arXiv cs.AI / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- STAIRS-Former は、空間的および時間的階層を用いてエージェント間の注意を高め、長期的な相互作用履歴を捉えるオフラインの多エージェント強化学習用のトランスフォーマーアーキテクチャです。
- 本モデルは、重要なトークンに対する注意と交互に組み込まれた再帰構造を活用することでエージェント間の協調を実現し、タスクごとに異なるエージェント数に対応します。
- 異なるエージェント集団に直面した際のロバスト性と一般化を向上させるために、トークン・ドロップアウトを導入します。
- SMAC、SMAC-v2、MPE、MaMuJoCo を含む多様なマルチタスクベンチマークに対する広範な実験の結果、STAIRS-Former が最先端の性能を一貫して示します。
- 部分観測性を伴うマルチタスク設定におけるオフライン MARL の一般化とエージェント間の協調を改善することで、本研究はこの分野を前進させます。
オフラインの多エージェント強化学習(MARL)において、マルチタスクデータセットを用いることは、タスクごとにエージェントの数が異なることと、未見の状況へ一般化する必要性のため、困難です。従来の研究は、観測トークン化と階層的スキル学習を用いてこれらの課題に対処してきました。しかし、エージェント間の協調のためのトランスフォーマーの注意機構を十分に活用せず、単一の履歴トークンに依存しており、部分観測の MARL 設定における長期的な時間的依存関係を捉える能力を制限しています。本論文では、空間的および時間的階層を組み込んだトランスフォーマーアーキテクチャ STAIRS-Former を提案します。これにより、重要なトークンに対して効果的な注意を適用しつつ、長い相互作用履歴を捉えることができます。さらに、異なるエージェント集団に対するロバスト性と一般化を向上させるために、トークン・ドロップアウトを導入します。SMAC、SMAC-v2、MPE、MaMuJoCo など、多様なマルチエージェントベンチマークとマルチタスクデータセットを対象とした広範な実験により、STAIRS-Former が従来手法を一貫して上回り、新たな最先端性能を達成することを示します。
