ReCAPA:カスケード障害を軽減する階層型予測補正

arXiv cs.AI / 2026/4/25

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、視覚言語行動(VLA)システムに対して、途中の誤りが長いマルチステップ課題で連鎖的(カスケード的)に拡大するのを防ぐことを目的としたReCAPAを提案しています。
  • ReCAPAは、予測/コントラストと意味アラインメントを組み合わせ、行動・サブゴール・軌跡の3つの階層レベルで逸脱を補正します。
  • 予測補正とアラインメントは学習中にアクション生成器へ統合され、細かな手順が全体の意図に沿い続けるように調整することを可能にします。
  • 著者らは、長期実行における誤りの伝播と回復を定量化するための2つの新しい指標を提案し、誤りがどのように広がり、どの程度減衰するかを捉えます。
  • VisualAgentBench、MineDojo、AI2-THORといったエンボディドエージェントのベンチマークで、プロプライエタリおよびオープンソースの強力なLLM基準モデルを上回るなど、競争力のある結果が報告されています。

Abstract

Vision-Language-Action(VLA)システムは、マルチモーダル環境で複数ステップのタスクを実行するための指示に従います。近年のVLA手法は、一般に事後的な補正メカニズムに依存するか、固定されたタスク分解および整合(アラインメント)方式のもとで動作します。しかし、中間ステップが誤って指定されると、局所的な誤りが後続ステップへと伝播し、最終的に連鎖的な失敗として蓄積します。この複合的な影響を軽減するために、我々は予測的アラインメントおよび計画アーキテクチャ(Predictive Alignment and Planning Architecture)を提案します。この枠組みは、予測とコントラストを用いて、3つのレベル(行動、サブゴール、軌跡)にまたがる偏差を調整します。セマンティックな整合は、SinkhornベースのモジュールおよびScore-fieldモジュールを用いて、すべてのレベルで強制されます。予測に基づく補正と整合は、学習中にアクション生成器を共同で更新し、全体の意図に沿い続けるよう微細なステップを調整できるようにします。さらに、タスクにおける誤り伝播と回復プロセスを定量化するための2つの新しい指標を導入します。これにより、長いホライズンでの実行において、誤りがどのように広がり、どのように消えていくのかを捉えます。実験の結果、ReCAPAはVisualAgentBench、MineDojo、AI2-THORといったエンボディド・エージェントのベンチマークにおいて競争力のある結果を達成し、強力な専有およびオープンソースのLarge Language Modelのベースラインを上回りました。