要旨: 拡張現実(AR)および支援デバイスにおける自己中心的な姿勢推定では、単に正確な予測が必要なだけでなく、確実性のある不確実性領域(uncertainty regions)が求められます。適合予測(Conformal Prediction; CP)は再学習なしでそのような保証を提供しますが、固定した単一の閾値を用いる標準的なCPは、全体のカバレッジ(coverage)を名目上90%に保つ一方で、最も難しい25%のフレーム(Q4)のうちカバーできるのは約60%にとどまることを示します──この条件付きカバレッジのギャップは、12人の参加者、3つの予測器(predictors)、3つの地平(horizons)にわたって一貫して約30パーセントポイントであり(EPIC-Fieldsにおける108評価)、確認されます。さらに、測地線(geodesic)のSE(3) 非適合度スコアが、ユークリッド(Euclidean)スコアに比べて、物理的により難しいフレームを特定できることも示します。測地線に基づくQ4では、Q4の重なりが15〜26%にしかならない一方で、地上真値(ground-truth)カメラの変位(displacement)は2〜3倍高くなります。カバレッジのギャップを埋めるために、DINOv2-Bridge に基づく適応的CP(adaptive CP)を提案します。これは、単一のソース参加者で訓練された2段階の難易度推定器であり、テスト時には画像を一切用いずに参加者をまたいで転移します。その結果、Q4のカバレッジを約0.75から約0.93へと改善しつつ、全体のカバレッジを90%という目標値に維持します。
エゴセントリック・カメラ姿勢推定のための適応的ジオデシック・確率的(共形)予測
arXiv cs.CV / 2026/5/4
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、AR/支援機器向けのエゴセントリック姿勢推定における共形予測(CP)を評価し、固定閾値の標準CPが最も難しい25%のフレームで名目上の90%に対して約60%しかカバーできないことを示しています。
- ジオデシックSE(3)の非適合度スコアはユークリッドスコアよりも物理的に難しいフレームをより良く特定でき、Q4の重なりが小さくなる一方で、ジオデシック選択された難しいフレームでは真のカメラ変位が大きいことが報告されています。
- カバレッジギャップを埋めるために、著者らはDINOv2-Bridge適応型共形予測を提案しており、単一の被験者ソースで訓練した二段階の難易度推定器を、テスト時には画像を一切使わずに被験者間で転移させます。
- EPIC-Fieldsでの実験では、Q4カバレッジが約0.75から約0.93に向上しつつ、全体のカバレッジは90%目標付近に維持されることが、複数の予測器とホライズンにわたって示されています。
- 結果として、適応的な難易度推定と、幾何学を踏まえた適切な非適合度スコアの組み合わせにより、難しいエゴセントリックフレームに対しても強い不確実性保証を回復できることが示されています。



