InCaRPose:車内(In-Cabin)の相対カメラ姿勢推定モデルとデータセット

arXiv cs.CV / 2026/4/7

📰 ニュースSignals & Early TrendsModels & Research

要点

  • InCaRPoseは、車内の自動車モニタリングおよびカメラ外部パラメータ(extrinsic)校正を対象とした、深刻な歪み(例:フィッシュアイレンズ)下でも頑健な相対カメラ姿勢推定のためのTransformerベースのモデルを提案します。
  • この手法は、凍結したバックボーン特徴(DINOv3)とTransformerデコーダを用い、参照画像と目標画像の間における幾何学的関係を、単一の推論ステップで推定します。さらに、現実的なマウント調整(取り付け位置の微調整)の範囲内で絶対的なメートルスケールの並進(translation)も推定します。
  • 高度に歪んだ自動車内装に対応するため、本アプローチは合成データのみで学習されており、カメラの内部パラメータ(intrinsics)が一致している必要なしに、実世界の車内へ汎化することを設計思想としています。
  • 論文では公開データセットである7-Scenesにおいて競争力のある結果を報告しており、ViT-Smallバックボーンを用いても回転・並進の精度を高い水準で維持しています。運転者モニタリングのような(教師あり)自動運転のリアルタイム用途を目標としています。
  • モデルに加えて、著者らは、高度に歪んだ車両内装画像からなるIn-Cabin-Poseデータセットを公開し、GitHubでコードも提供します。

要旨: カメラ外部パラメータの較正は、コンピュータビジョンにおける基本的な課題です。しかし、車内監視(ICAM)のような制約された環境で、かつ高度に歪んだ環境において、精密な相対姿勢推定を行うことは依然として困難です。私たちは、画像ペア間の頑健な相対姿勢予測のために設計されたTransformerベースのアーキテクチャであるInCaRPoseを提案し、これをカメラ外部パラメータ較正に利用できるようにします。DINOv3のような固定バックボーン特徴や、Transformerベースのデコーダを活用することで、参照視点とターゲット視点の間の幾何学的関係を効果的に捉えます。従来手法とは異なり、私たちのアプローチは、車内カメラマウントの物理的に妥当な調整範囲内において、単一の推論ステップで絶対的なメートルスケールの並進を達成します。これは、安全に関わる知覚のために正確な実世界の距離が必要とされるICAMにとって重要です。私たちは、自動車の室内における高度に歪んだ魚眼カメラの課題に対し、合成データのみによって学習することで特に対処します。本モデルは、同一のカメラ内在パラメータに依存することなく、実際の車内環境へと一般化可能であり、さらに公開されている7-Scenesデータセットでも競争力のある性能を実現します。学習データが限られているにもかかわらず、InCaRPoseはViT-Smallのバックボーンでも、回転と並進の両方において高い精度を維持します。これにより、ドライバーモニタリングのような時間的制約のある推論(監視付き自動運転)に対して、リアルタイム性能を提供できます。私たちは、高度に歪んだ車両室内画像からなる実環境のIn-Cabin-Poseテストデータセットと、コードをhttps://github.com/felixstillger/InCaRPoseで公開します。

InCaRPose:車内(In-Cabin)の相対カメラ姿勢推定モデルとデータセット | AI Navigate