HELM:視覚言語行動によるロングホラーマニピュレーションのためのハーネス強化長期メモリ

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • 視覚言語行動(VLA)モデルは短期タスクでは高性能でも、ロングホラーマニピュレーションでは体系的に失敗し、リアクティブ実行設定では単にコンテキスト長を伸ばしても問題は解決されません。
  • 原因として、メモリギャップ、検証ギャップ、リカバリギャップの3つの反復的な実行ループ上の欠陥を挙げています。
  • HELMは、CLIPでインデックス化したキーフレームを取得するエピソード記憶モジュール(EMM)、実行前に行動失敗を予測する学習済み状態検証器(SV)、ロールバックと再計画を行うハーネスコントローラ(HC)の3構成要素でこれらに対処します。
  • 学習済みSVが中核の学習貢献であり、ルールベースの実行可能性チェックやアンサンブルの不確実性ベースラインを一貫して上回りますが、その効果はエピソード記憶へのアクセスに大きく依存します。
  • 実験ではLIBERO-LONGでOpenVLAに対してタスク成功率が23.1ポイント向上し(58.4%→81.5%)、一方でH=32にコンテキスト窓を拡張しても得られる改善は5.4ポイントにとどまります。さらにCALVINでも改善が見られ、失敗回復評価のためのLIBERO-Recoveryプロトコルも公開されます。

要旨: Vision-Language-Action(VLA)モデルは、短いホライズンでの性能が高いにもかかわらず、長いホライズンの操作タスクでは体系的に失敗します。我々は、この失敗が、現在のリアクティブな実行設定において単にコンテキスト長を延長するだけでは解決されないことを示します。代わりに、再発する3つの実行ループ上の欠陥、すなわちメモリギャップ、検証ギャップ、リカバリギャップに起因します。そこで我々は、これらの欠陥に対処するモデル非依存の枠組みであるHELMを提示します。HELMは3つのコンポーネントから構成されます。CLIPでインデックス付けされたキーフレームを介してタスクの重要な履歴を取得するエピソードメモリモジュール(Episodic Memory Module: EMM)、観測、行動、サブゴール、メモリに条件付けされたコンテキストから、実行前に行動の失敗を予測する学習済み状態検証器(State Verifier: SV)、そしてロールバックと再計画を行うハーネスコントローラ(Harness Controller: HC)です。SVは中核となる学習上の貢献です。SVは一貫して、ルールベースの実行可能性チェックやアンサンブルの不確実性ベースラインを上回り、その有効性はエピソードメモリへのアクセスに厳密に依存します。LIBERO-LONGでは、HELMはOpenVLA(58.4%から81.5%)に対してタスク成功率を23.1ポイント改善します。一方で、コンテキスト窓をH=32に拡張しても得られるのは5.4ポイントの改善にとどまり、同一予算でのLoRA適応はHELMより12.2ポイント低いままです。HELMはCALVINにおける長いホライズン性能も改善し、制御された摂動のもとでのリカバリ成功を大幅に押し上げます。アブレーション実験とメカニズム解析により、各コンポーネントの寄与が切り分けられます。そして、長いホライズンの操作における失敗リカバリを評価するための摂動注入プロトコルとして、LIBERO-Recoveryを公開します。