身体性インタープリタビリティ:視覚と言語、行動モデルにおける因果理解と汎化の結びつけ
arXiv cs.RO / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚・言語・行動(VLA)ポリシーが分布シフト下でしばしば破綻するのは、タスクに関わる因果要因ではなく、無関係な視覚相関に依存している可能性があるためだと主張している。
- 視覚から行動へのアトリビューションを「介入に基づく推定問題」として捉え直し、視覚領域が行動予測へ与える因果的影響を測る Interventional Significance Score(ISS)を提案している。
- さらに、タスクに関係のない特徴へのアトリビューションの割合を定量化する Nuisance Mass Ratio(NMR)も導入している。
- ISSの統計的性質を解析し、ISSが不偏推定を可能にすることを示すとともに、行動予測誤差が因果的影響の代理指標として妥当になる条件を特徴づけている。
- 複数のマニピュレーション課題に関する実験では、NMRが汎化挙動と相関し、ISSは既存の解釈手法よりも忠実な説明を与えることが示され、身体性ポリシーにおける因果的ミスアライメントの診断アプローチにつながるとしている。



