STAIRS-Former: インタリーブド再帰構造トランスフォーマーによる時空間注意機構を備えたオフラインの多タスク・多エージェント強化学習

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

STAIRS-Former は、空間的および時間的階層を用いてエージェント間の注意を高め、長期的な相互作用履歴を捉えるオフラインの多エージェント強化学習用のトランスフォーマーアーキテクチャです。
本モデルは、重要なトークンに対する注意と交互に組み込まれた再帰構造を活用することでエージェント間の協調を実現し、タスクごとに異なるエージェント数に対応します。
異なるエージェント集団に直面した際のロバスト性と一般化を向上させるために、トークン・ドロップアウトを導入します。
SMAC、SMAC-v2、MPE、MaMuJoCo を含む多様なマルチタスクベンチマークに対する広範な実験の結果、STAIRS-Former が最先端の性能を一貫して示します。
部分観測性を伴うマルチタスク設定におけるオフライン MARL の一般化とエージェント間の協調を改善することで、本研究はこの分野を前進させます。

オフラインの多エージェント強化学習（MARL）において、マルチタスクデータセットを用いることは、タスクごとにエージェントの数が異なることと、未見の状況へ一般化する必要性のため、困難です。従来の研究は、観測トークン化と階層的スキル学習を用いてこれらの課題に対処してきました。しかし、エージェント間の協調のためのトランスフォーマーの注意機構を十分に活用せず、単一の履歴トークンに依存しており、部分観測の MARL 設定における長期的な時間的依存関係を捉える能力を制限しています。本論文では、空間的および時間的階層を組み込んだトランスフォーマーアーキテクチャ STAIRS-Former を提案します。これにより、重要なトークンに対して効果的な注意を適用しつつ、長い相互作用履歴を捉えることができます。さらに、異なるエージェント集団に対するロバスト性と一般化を向上させるために、トークン・ドロップアウトを導入します。SMAC、SMAC-v2、MPE、MaMuJoCo など、多様なマルチエージェントベンチマークとマルチタスクデータセットを対象とした広範な実験により、STAIRS-Former が従来手法を一貫して上回り、新たな最先端性能を達成することを示します。

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

STAIRS-Former: インタリーブド再帰構造トランスフォーマーによる時空間注意機構を備えたオフラインの多タスク・多エージェント強化学習

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer