AI Navigate

マルチモーダル潜在リプレイと増分調整を用いた生涯模倣学習

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 現実的なメモリとデータ制約の下で、逐次タスクを跨ぐ継続的なポリシー改良を可能にする生涯模倣学習フレームワークを紹介する。
  • 従来の経験リプレイとは異なり、本手法は視覚・言語・ロボットの状態情報の圧縮表現を保存して将来の学習を支えるマルチモーダル潜在空間の中だけで動作します。
  • 増分的特徴調整機構を追加し、角度マージン制約を用いて適応を安定化させ、タスク埋め込みのタスク間の識別性を保持します。
  • LIBEROベンチマークにおいて新しい最先端を確立し、AUCで10〜17ポイントの向上と従来法と比べて忘却を最大65%低減することを報告し、アブレーション研究により各コンポーネントの有効性を確認します。
  • 著者は提供されたGitHubリンクでコードを公開しています。
私たちは、現実的なメモリとデータ制約の下で、逐次タスクにわたる継続的なポリシー改良を可能にする生涯模倣学習フレームワークを導入します。私たちのアプローチは、従来の経験リプレイとは異なり、視覚・言語・ロボットの状態情報の圧縮表現を保存・再利用して将来の学習を支援する、完全にマルチモーダル潜在空間内で動作します。適応をさらに安定化させるため、角度マージン制約を用いてタスク埋め込みの進化を正則化する増分的特徴調整機構を導入し、タスク間の識別性を保持します。私たちの手法はLIBEROベンチマークにおいて新しい最先端を確立し、AUCで10〜17ポイントの向上を達成し、従来の先行手法と比較して忘却を最大65%低減します。アブレーション研究は各コンポーネントの有効性を確認し、他の戦略を上回る一貫した改善を示しています。コードは以下のURLで公開されています: https://github.com/yfqi/lifelong_mlr_ifa.