小規模データにおける高密度予測のためのフローズン・ビジョン・トランスフォーマー：矢印の位置特定のケーススタディ

arXiv cs.CV / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、屋内アーチェリーの的に対し、わずか48枚の注釈付き写真だけで「検出・位置特定・スコアリング」を行う自動システムを提案しています。
パイプラインは、色ベースの台形（透視）補正で撮影の視点歪みを正規化したうえで、凍結した自己教師ありビジョントランスフォーマー（DINOv3 ViT-L/16）と AnyUp によるガイド付き特徴量アップサンプリングで、32×32パッチトークンからサブミリ精度を復元します。
学習するのは CenterNet 風の軽量検出ヘッドのみで、全308Mパラメータ中の学習可能なのは3.8Mに抑えられており、少数データでも高効率に学習できます。
3つの交差検証で平均F1=0.893（±0.011）、平均位置誤差=1.41（±0.06）mm を達成し、下流のスコア推定でも中央値誤差は約1.8%です。
アブレーションでは、通常サブピクセル精度向上に必要とされるオフセット回帰ヘッドが検出にはほとんど寄与せず、むしろ位置特定を悪化させることが示され、ガイド付きアップサンプリングがトークン化で失われる空間精度をすでに補っている可能性が示唆されています。

要旨: 本稿では、40\,cmの屋内アーチェリー用ターゲット面に対する矢の穿刺（arrow puncture）の自動検出・位置特定・スコアリングのためのシステムを提案する。学習には、48枚のアノテーション付き写真（5{,}084件の穿刺）だけを用いる。このパイプラインは3つの構成要素から成る。すなわち、透視歪みのある写真を、ピクセル距離が既知の物理計測値に対応する標準化座標系へ写像する、色ベースのカノニカル（正規化）整列段階；凍結した自己教師ありビジョントランスフォーマ（DINOv3 ViT-L/16）とAnyUpによるガイド付き特徴アップサンプリングを組み合わせて、 $32 \times 32$ のパッチトークンからサブミリメートル精度の空間的復元を行う段階；そして矢の中心のヒートマップ予測のための軽量なCenterNetスタイル検出ヘッドである。訓練可能なのは全308\,Mパラメータのうち3.8\,Mのみである。3つのクロスバリデーションの各フォールドにおいて、平均F1スコア $0.893 \pm 0.011$ 、平均位置特定誤差 $1.41 \pm 0.06$ \,mmを達成した。これは、はるかに多い学習データを必要とする先行する完全教師あり手法と同等、またはそれより良い。アブレーション研究では、通常はサブピクセル精密化に不可欠とされるCenterNetオフセット回帰ヘッドが、本設定では検出性能の改善はほとんどもたらさず、位置特定を悪化させることが示される。これは、ガイド付き特徴アップサンプリングが、パッチトークナイズによって失われた空間精度をすでに解決していることを示唆する。下流のアーチェリー計測指標では、本システムは、中央値誤差1.8\%で画像ごとの平均矢スコアを復元し、また群の重心位置を中央値4.00\,mm以内に収める。これらの結果は、小規模データの条件下における高密度予測に対して、最小限のタスク固有適応で凍結した基盤モデルが実用的なパラダイムとなり得ることを示している。