E$^2$DT：ロボットマニピュレーション向け、経験を考慮したサンプリングによる効率的かつ効果的な決定トランスフォーマー

arXiv cs.RO / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、ロボットマニピュレーションにおけるDecision Transformer（DT）の性能は、収集した経験が関連する軌道空間をどれだけカバーしているかに大きく依存し、一様リプレイは効率と探索を制限すると指摘している。
提案手法E$^2$DTは、DTに導かれたk-Determinantal Point Process（k-DPP）に基づくサンプリングで、学習に使う経験を質と多様性の観点から能動的に選択する。
E$^2$DTは経験に基づいてサンプリングを行い、高リターン・高不確実性・未表現（不足）な軌道を優先し、潜在埋め込みによって軌道ウィンドウ間の多様性を保つ。
経験の質は、return-to-go（RTG）分位点・予測不確実性・逆頻度に基づくステージ被覆を統合した複合指標として定量化し、質と多様性を両立する新しい共同カーネルとして組み合わせる。
シミュレーションと実機のロボットマニピュレーションベンチマークで、E$^2$DTは既存手法を一貫して上回り、経験を考慮したサンプリングとポリシー学習の結合が長期ホライズンの頑健な学習に向けた原理的な道筋を示すことを示している。

Anthropic News

日経XTECH

The Verge

Dev.to

Dev.to