HAMLET:Vision-Language-Actionモデルを履歴に配慮したポリシーへ切り替える

arXiv cs.RO / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ロボティックな視覚言語行動(VLA)ポリシーが、履歴に依存するタスクで失敗しがちな理由として、過去の観測を無視し、現在のフレームのみに依拠している点を指摘している。
  • 既存のVLAを、時刻ごとの「モーメントトークン」および、時間を通じてそれらを集約して行動予測に用いる軽量なメモリモジュールにより、履歴に配慮したポリシーへとアップグレードする枠組み「HAMLET」を提案する。
  • モーメントトークンは時間的に特徴の異なる知覚情報をよりよく符号化できるよう、時刻コントラスト学習によって初期化される。
  • 実験の結果、長いホライズンで履歴に依存する実世界タスクにおいて大幅な改善が示される(例:GR00T N1.5ベースのセットアップで成功率76.4%、ベースラインから47.2%向上)。
  • HAMLETは、RoboCasa Kitchen(100デモ設定で64.1% → 66.4%)およびLIBERO(95.6% → 97.7%)においても先行手法の成績を改善し、汎用的なロボット操作ベンチマーク全般で有効性が確認される。

Abstract

本質的に、ロボティックな操作タスクは履歴依存的です。過去の文脈を活用できる可能性があります。しかし、既存のほとんどのビジョン・ランゲージ・アクションモデル(VLA)は、この点を考慮せずに設計されており、すなわちそれらは先行する文脈を無視して、現在の観測のみに依存しています。本論文では、行動予測の際に履歴的文脈に注意を向けるようにVLAを適応させる、スケーラブルな枠組みHAMLETを提案します。具体的には、各タイムステップにおける知覚情報をコンパクトに符号化するモーメントトークンを導入します。これらの表現は時間コントラスト学習で初期化されており、時間的に区別される側面をよりよく捉えられるようになります。次に、軽量なメモリモジュールを用いて、過去のタイムステップにわたるモーメントトークンをメモリ特徴へと統合し、そのメモリ特徴を行動予測に活用します。実験的評価により、HAMLETが最先端のVLAを履歴に注意を払うポリシーへと確実に変換できることを示します。特に、履歴的文脈を必要とする長いホライズンのタスクで大きな改善が見られます。具体的には、GR00T N1.5の上にHAMLETを適用した場合、履歴依存の現実世界タスクにおける平均成功率が47.2%ベースラインを上回り、76.4%に達します。さらにHAMLETは、RoboCasa Kitchen(100-demo設定)において64.1%から66.4%へ、またLIBEROにおいて95.6%から97.7%へと先行技術の性能を押し上げており、汎用的なロボット操作ベンチマークの下でも有効性が示されています。