要旨: ロボットによる操作タスクは、必要とするメモリ量がさまざまであり、メモリを必要としないマルコフ型タスクから、単一または複数の相互作用試行にまたがる履歴情報に依存する非マルコフ型タスクまで幅広く存在します。驚くべきことに、ビジュオモータ・ポリシーの観測履歴を単に延長するだけで、分布シフトや過学習のために性能が大きく低下することがよくあります。これらの問題に対処するために、本稿では Gated Memory Policy (GMP) を提案します。GMP は、いつメモリを想起するか、そして何を想起するかを学習するビジュオモータ・ポリシーです。いつメモリを想起するかを学習するために、GMP は学習されたメモリ・ゲート機構を用いて、必要なときにだけ履歴コンテキストを選択的に活性化し、頑健性と機敏性を向上させます。何を効率よく想起するかを学習するために、GMP は軽量なクロスアテンション・モジュールを導入し、効果的な潜在メモリ表現を構築します。さらに頑健性を高めるために、GMP は履歴アクションに拡散ノイズを注入し、訓練時および推論時の双方において、ノイズのある、または不正確な履歴に対する感度を軽減します。提案する非マルコフ・ベンチマーク MemMimic では、GMP は長履歴ベースラインに対して平均成功率を 30.1% 向上させる一方で、RoboMimic におけるマルコフ型タスクでも競争力のある性能を維持しています。すべてのコード、データ、そして実環境での導入手順は、プロジェクトWebサイト https://gated-memory-policy.github.io/ で利用可能です。
ゲーテッド・メモリ・ポリシー
arXiv cs.AI / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- ロボティクスの操作タスクはマルコフ的/非マルコフ的で必要な記憶の性質が異なり、観測履歴を単純に延長すると分布シフトや過学習によって大きく性能が低下し得る。
- 提案されたGated Memory Policy(GMP)は、履歴を「いつ思い出すか」(学習されたメモリゲート)と「何を思い出すか」(軽量なクロスアテンション)を同時に学習する。
- GMPは頑健性を高めるため、過去の行動に拡散ノイズを注入し、訓練・推論の両方でノイズや不正確な履歴への感度を下げる。
- 非マルコフベンチマークMemMimicで、GMPは長い履歴を用いるベースラインに対して平均成功率を30.1%改善し、RoboMimicのマルコフタスクでも競争力のある性能を維持する。
- 著者はコード、データ、実運用(in-the-wild)向けの手順をプロジェクトサイトで公開している。



