要旨: 舗装路面の状態評価は、道路の安全性と維持管理に不可欠である。既存の研究は大きな進展を遂げてきた。 しかし、ほとんどの研究は、分類、検出、セグメンテーションといった従来のコンピュータビジョンタスクに焦点を当てている。実世界の適用では、舗装の検査は単なる視覚認識以上のものを必要とする。それは、定量的な分析、説明、そしてインタラクティブな意思決定支援も要求する。現行のデータセットには限界がある。これらは単一モダリティの知覚に重点を置いている。複数ターンの対話と、事実に根ざした推論を支える仕組みがない。また、知覚とビジョン・ランゲージ解析(視覚と言語の解析)を結びつけてもいない。これらの制約に対処するため、我々は PaveBench を導入する。PaveBench は、実世界の高速道路検査画像に対する舗装の損傷(distress)知覚およびインタラクティブなビジョン・ランゲージ解析のための、大規模ベンチマークである。PaveBench は4つの中核タスクをサポートする。分類、物体検出、セマンティックセグメンテーション、そしてビジョン・ランゲージによる質問応答である。タスク定義と評価プロトコルを統一的に提供する。視覚面では、PaveBench は大規模な注釈を提供し、頑健性評価のための厳選したハード・ディストラクタ(紛らわしい妨害例)のサブセットを含めている。実世界の舗装画像を多数収録している。マルチモーダル側では、我々は PaveVQA を導入する。PaveVQA は、実画像を用いた質問応答(QA)データセットであり、単一ターン、複数ターン、そして専門家による修正を反映した対話をサポートする。認識、位置特定、定量的推定、そして維持管理に関する推論を扱う。我々はいくつかの最先端手法を評価し、詳細な分析を提示する。さらに、視覚と言語モデルに加えて、ドメイン固有のモデルをツールとして統合する、単純で効果的なエージェント拡張型の視覚質問応答フレームワークも提示する。データセットは以下で利用可能である: https://huggingface.co/datasets/MML-Group/PaveBench。
PaveBench:舗装路面の損傷認識とインタラクティブなビジョン・言語解析のための汎用的ベンチマーク
arXiv cs.CV / 2026/4/6
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、定量分析と説明の必要性を取り入れることで、標準的なCVタスクを超えて舗装路面の損傷認識を発展させることを目的とした大規模ベンチマーク「PaveBench」を紹介する。
- PaveBenchは、分類、物体検出、意味セグメンテーション、ビジョン・言語の質問応答の4つのタスクを統合し、タスク定義と評価プロトコルを標準化している。
- 実世界の高速道路の検査画像と豊富な視覚アノテーションを提供するとともに、紛らわしいケースに対する頑健性を評価するために厳選したハード・ディストラクタのサブセットも用意している。
- さらに、実画像に基づくビジョン・言語QAデータセット「PaveVQA」を提案し、認識、ローカライズ、定量推定、保全の推論を支援するために、シングルターンおよびマルチターンの、専門家が訂正したインタラクションを可能にする。
- 著者らは最先端手法を評価し、ドメイン固有モデルをツールとしてビジョン・言語モデルと併用する、シンプルなエージェント拡張型VQAフレームワークを提示している。データセットはHugging Faceで公開される。



