Dejavu:身体化知能に向けた経験フィードバック学習

arXiv cs.RO / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、実環境に投入後に新しい知識を獲得して性能向上することが難しいという課題に対し、ポストデプロイ学習の一般フレームワークDejavuを提案しています。
  • Dejavuは凍結したVision-Language-Action(VLA)方策に対して、Experience Feedback Network(EFN)が参照用の実行メモリを検索し、観測に応じて参照ガイダンスを条件付けして行動予測を更新する仕組みです。
  • EFNは強化学習と意味類似度に基づく報酬で学習され、現在の観測下で過去の行動に整合するように学習を促します。
  • 実運用では新しい軌跡を継続的にメモリへ追加し、エージェントが経験から学習できるようにする点が特徴です。
  • 幅広いエンボディド・タスクで、EFNが凍結ベースラインより適応性・頑健性・成功率を改善したと報告しています。

Abstract

身体化エージェントは本質的な制約に直面します。すなわち、実世界の環境に投入された後は、タスク性能を向上させるための新しい知識を容易に獲得できません。本論文では、Dejavu という一般的なポストデプロイメント学習フレームワークを提案します。これは、固定された Vision-Language-Action (VLA) ポリシーを、経験フィードバックネットワーク (EFN) を通じて取得した実行メモリで拡張します。EFN は文脈的に関連のある過去の行動経験を特定し、取得したガイダンスに基づいて行動予測を条件付けます。私たちは強化学習と意味的類似度の報酬により EFN を学習させ、予測された行動が、現在の観測のもとでの過去の振る舞いと一致するよう促します。デプロイ時には、EFN が新しい軌跡で継続的にメモリを拡張し、エージェントが「経験から学習する」ことを可能にします。多様な身体化タスクにまたがる実験により、EFN が固定ベースラインに比べて適応性、頑健性、および成功率を向上させることが示されます。私たちのプロジェクトページは https://dejavu2025.github.io/ です。