自動運転における交通標識認識：データセット、ベンチマーク、フィールド実験

arXiv cs.CV / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、TSR（交通標識認識）の現実環境における診断的評価を改善することを目的として、454の標準化カテゴリにまたがる100万枚超の実世界画像を含む、世界的に多様な大規模交通標識データセットTS-1Mを導入する。
課題志向の設定—例えば地域をまたいだ認識、希少クラスの識別、低明瞭度へのロバスト性、意味的なテキスト理解—を用いた診断ベンチマークを提案し、さまざまなTSR手法がどこで破綻するかを明らかにする。
著者らは、TS-1Mを3つの学習パラダイム（従来型の教師ありモデル、自教師ありで事前学習したモデル、多モーダルのビジョン・ランゲージモデル（VLM））にわたって評価し、パラダイム依存の性能傾向を見出す。
分析から、意味的な整合（セマンティック・アラインメント）が地域間の汎化や希少カテゴリの認識にとって重要である一方、純粋に視覚に基づくモデルは外観変化やデータ不均衡に対して脆弱であることが示唆される。
本研究は、TSRと意味推論および空間的なローカライゼーションを組み合わせ、地図レベルの意思決定制約を満たす実シーンの自動運転実験により、TS-1Mの実用上の妥当性を検証する。

概要: 交通標識認識（TSR）は、自動運転における中核的な知覚能力であり、実世界での信頼性の高い導入のためには、領域間の変動への頑健性、長い尾を持つカテゴリへの対応、そして意味的曖昧さへの対処が不可欠です。認識精度に関しては着実な進展が見られるものの、既存の交通標識データセットやベンチマークでは、これらの実務上の課題の下で異なるモデリングのパラダイムがどのように振る舞うかについての診断的な洞察が十分に得られていません。本研究では、TS-1Mを提案します。TS-1Mは、454の標準化カテゴリにわたって、100万枚を超える実世界画像から成る、大規模かつ世界的に多様な交通標識データセットであり、モデル能力の境界を分析するための診断用ベンチマークも併せて提供します。標準的な学習-テスト評価に加え、領域間認識、希少クラスの識別、低明瞭性への頑健性、意味テキスト理解といった、課題志向の設定群を用意しており、現代のTSRモデルを系統的かつきめ細かく評価できるようにしています。TS-1Mを用いて、3つの代表的な学習パラダイム――古典的な教師ありモデル、自教師ありで事前学習したモデル、多モーダルの視覚言語モデル（VLM）――に対して統一的なベンチマークを実施します。分析の結果、パラダイムに依存した一貫した挙動が明らかになり、意味の整合性が領域間の汎化と希少カテゴリ認識の鍵となる一方で、純粋に視覚に基づくモデルは外観の変化やデータ不均衡の影響を受けやすいことが示されます。最後に、交通標識認識を意味推論および空間的ローカライズと統合し、地図レベルの意思決定制約を支える実シーンの自動運転実験によって、TS-1Mの実用上の関連性を検証します。総じて、TS-1MはTSRに対する参照レベルの診断ベンチマークを確立するとともに、頑健かつ意味を意識した交通標識認識に関する原理に基づく洞察を提供します。プロジェクトページ: https://guoyangzhao.github.io/projects/ts1m.