身体性インタープリタビリティ:視覚と言語、行動モデルにおける因果理解と汎化の結びつけ

arXiv cs.RO / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚・言語・行動(VLA)ポリシーが分布シフト下でしばしば破綻するのは、タスクに関わる因果要因ではなく、無関係な視覚相関に依存している可能性があるためだと主張している。
  • 視覚から行動へのアトリビューションを「介入に基づく推定問題」として捉え直し、視覚領域が行動予測へ与える因果的影響を測る Interventional Significance Score(ISS)を提案している。
  • さらに、タスクに関係のない特徴へのアトリビューションの割合を定量化する Nuisance Mass Ratio(NMR)も導入している。
  • ISSの統計的性質を解析し、ISSが不偏推定を可能にすることを示すとともに、行動予測誤差が因果的影響の代理指標として妥当になる条件を特徴づけている。
  • 複数のマニピュレーション課題に関する実験では、NMRが汎化挙動と相関し、ISSは既存の解釈手法よりも忠実な説明を与えることが示され、身体性ポリシーにおける因果的ミスアライメントの診断アプローチにつながるとしている。

Abstract

視覚-言語-行動(VLA)ポリシーは分布シフト下でしばしば失敗し、意思決定がタスクに関連する原因ではなく、見かけ上の(spurious)視覚的相関に依存している可能性が示唆されます。そこで本研究では、視覚-行動のアトリビューションを介入(interventional)推定問題として定式化します。これに基づき、視覚領域が行動予測に及ぼす因果的影響を推定するための介入的マスキング手順である介入的有意性スコア(Interventional Significance Score: ISS)を導入します。また、タスクに無関係な特徴へのアトリビューションを表すスカラー指標である無関係マス比(Nuisance Mass Ratio: NMR)も提案します。ISSの統計的性質を解析し、それが不偏推定を許容することを示します。さらに、行動予測誤差が因果的影響の妥当な代理指標として機能する条件を特徴づけます。多様な操作タスクにまたがる実験の結果、NMRは汎化挙動を予測し、ISSは既存の解釈可能性手法よりもより忠実な説明をもたらすことが分かりました。これらの結果は、介入的アトリビューションが、身体化されたポリシーにおける因果的ミスアラインメントを特定するための単純な診断アプローチを提供することを示唆しています。

身体性インタープリタビリティ:視覚と言語、行動モデルにおける因果理解と汎化の結びつけ | AI Navigate