逐次タスクにおける時間差キャリブレーション：視覚言語行動（VLA）モデルへの応用

arXiv cs.RO / 2026/4/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、部分的な軌跡しか観測できない状況でも、視覚言語行動（VLA）ロボティクスモデルの逐次・エピソード課題における不確実性（信頼度）のキャリブレーション方法を扱います。
二値結果の場合に関して、逐次拡張したブライアスコアのリスク最小化解がVLAポリシーの価値関数と一致することを示します。
不確実性キャリブレーションと強化学習を結びつけることで、エピソードの時間経過に沿ったキャリブレーション手段として時間差（TD）による価値推定を提案します。
シミュレーションおよび実ロボットデータの両方で、TDベースのキャリブレーションが最先端手法よりも性能を改善することを実験的に示します。
さらに、TDでキャリブレーションしたVLAモデルでは、単一ステップの行動確率から得られる不確実性推定でも競争力のある結果が得られることを報告し、従来のキャリブレーション手法と対照的であることを明らかにします。