要旨: 現代の自動運転システムは、完全な視野の認識のために、ピンホールカメラと魚眼カメラを混在させたカメラ構成にますます依存するようになっています。しかし、Bird's-Eye View(BEV)3D物体検出モデルの大半はピンホールカメラ向けに設計されているため、魚眼歪みによって性能が低下します。このギャップを埋めるために、KITTI-360をnuScenes形式へ変換することで、混在カメラによるマルチビューBEV検出ベンチマークを提案します。本研究では、3つの適応を扱います。すなわち、ゼロショット評価のための補正と、nuScenesで学習したモデルの微調整、MEIカメラモデルによる歪みを意識したビュー変換モジュール(VTM)、そして放射状歪みによりよく整合するための極座標表現です。これらの戦略にわたって、3つの代表的なBEVアーキテクチャであるBEVFormer、BEVDet、PETRを体系的に評価します。その結果、射影を行わないアーキテクチャは、他のVTMよりも魚眼歪みに対して本質的に頑健であり、かつ効果的であることを示します。本研究は、魚眼画像とピンホール画像による初の実データ3D検出ベンチマークを確立するとともに、頑健でコスト効率の高い3D認識システムを設計するための体系的な適応と実践的な指針を提供します。コードは https://github.com/CesarLiu/FishBEVOD.git で利用できます。
混在ピンホール/フィッシュアイ・カメラによるマルチビューBEV物体検出のベンチマーク
arXiv cs.RO / 2026/3/31
💬 オピニオンSignals & Early TrendsModels & Research
要点
- 混在ピンホール/フィッシュアイ・カメラ環境でのBEV(Bird’s-Eye View)3D物体検出に対し、既存モデルが主にピンホール前提のためフィッシュアイ歪みで性能劣化する問題を取り上げています。
- KITTI-360をnuScenes形式に変換して、フィッシュアイとピンホール画像を用いたマルチビューBEV検出の実データ・ベンチマークを新たに構築し、zero-shot評価向けの補正や微調整、歪みを考慮したVT(View Transformation)など複数の適応手法を体系的に比較しています。
- MEIカメラモデルに基づく歪み認識VTモジュール(VTM)や放射座標表現などの改変を用い、BEVFormer・BEVDet・PETRの代表的BEVアーキテクチャ3種で評価しています。
- 結果として、投影(projection)を行わないアーキテクチャが、他のVTMよりフィッシュアイ歪みに対して本質的に頑健で有効であることを示しています。
- コードを公開し、フィッシュアイ混在下でも頑健でコスト効率の高い3D知覚システム設計のための実践的ガイドラインを提供しています。



