AD4AD：自動運転のための視覚異常検出モデルのベンチマーク

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、自動運転における視覚システムが学習時のデータ分布と大きく異なる状況に直面すると性能が低下し、その結果として物理的な安全リスクが生じ得る点を指摘している。
驚異的に訓練データに含まれていない対象を検出するためのVisual Anomaly Detection（VAD）を提案し、不慣れな状況を検知した際にドライバーへ警告できるとしている。
異常の場所を示すピクセルレベルのアノマリーマップを生成でき、ハザードの種類や形状に関する事前仮定を必要としない点が強調されている。
AnoVox（自動運転向けの異常検出のための大規模合成データセット）を用いて、8つの最先端VAD手法をベンチマークし、さらにMobileNetやDeiT-Tinyのような軽量バックボーンも含めて評価している。
Tiny-Dinomalyはエッジ展開に向けた精度と効率の最良のトレードオフを示し、少ないメモリコストでフルスケールに近いローカライズ性能を達成すると報告している。

要旨: 自動運転のための機械視覚システムの信頼性は、その訓練データの分布に大きく依存します。車両が、典型的でない障害物など、明らかに異なる状況に遭遇すると、その知覚能力は大幅に低下し得ます。誤りが限定的な結果にとどまる多くの領域とは異なり、自動運転における失敗は乗客、歩行者、その他の道路利用者に対する物理的な危険へと直結します。この課題に対処するため、解決策として視覚異常検出（VAD）を探究します。VADは、訓練中には存在しなかった異常物体を特定でき、未知の状況が検出されたときにシステムがドライバーへ警告を出せるようにします。重要なのは、VADモデルがピクセルレベルの異常マップを生成することで、危険の性質や形態についての事前の仮定を一切不要にしながら、懸念のある特定領域へドライバーの注意を導くことが可能になる点です。私たちは、自動運転における異常検出のための最大規模の合成データセットであるAnoVoxに対して、最先端のVAD手法8種類をベンチマークします。特に、MobileNetやDeiT-Tinyのような軽量なものから大規模ネットワークまでを含む4つのバックボーン構成にわたって性能を評価します。結果は、VADが道路シーンへ効果的に転移することを示しています。とりわけTiny-Dinomalyは、エッジ展開において最良の精度と効率のトレードオフを達成し、メモリコストの一部でフルスケールのローカライゼーション性能に匹敵しました。本研究は、自動運転車のより安全で、より責任ある展開へ向けた具体的な一歩であり、最終的に乗客、歩行者、そしてすべての道路利用者の保護を向上させます。