HAMLET:Vision-Language-Actionモデルを履歴に配慮したポリシーへ切り替える
arXiv cs.RO / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ロボティックな視覚言語行動(VLA)ポリシーが、履歴に依存するタスクで失敗しがちな理由として、過去の観測を無視し、現在のフレームのみに依拠している点を指摘している。
- 既存のVLAを、時刻ごとの「モーメントトークン」および、時間を通じてそれらを集約して行動予測に用いる軽量なメモリモジュールにより、履歴に配慮したポリシーへとアップグレードする枠組み「HAMLET」を提案する。
- モーメントトークンは時間的に特徴の異なる知覚情報をよりよく符号化できるよう、時刻コントラスト学習によって初期化される。
- 実験の結果、長いホライズンで履歴に依存する実世界タスクにおいて大幅な改善が示される(例:GR00T N1.5ベースのセットアップで成功率76.4%、ベースラインから47.2%向上)。
- HAMLETは、RoboCasa Kitchen(100デモ設定で64.1% → 66.4%)およびLIBERO(95.6% → 97.7%)においても先行手法の成績を改善し、汎用的なロボット操作ベンチマーク全般で有効性が確認される。