要旨: 都市の交通システムは、安全上の課題が増大しており、新興のスマートモビリティ基盤に向けてスケーラブルなインテリジェンスを必要としている。基盤モデルおよび大規模なマルチモーダル・データセットの最近の進展により、知的交通システム(ITS)における知覚と推論は強化されてきたものの、既存研究は主として微視的な自動運転(AD)に中心が置かれており、都市規模での交通分析への関心は限られている。特に、オープンエンドの安全志向ビジュアル質問応答(VQA)と、それに対応する、異種の路側カメラ観測を対象とした推論のための基盤モデルは、十分に探究されていない。本研究では、このギャップに対処するため、都市交通環境におけるオープンエンド推論のための、大規模オープンソースの視覚言語データセットであるLand Transportation Dataset(LTD)を導入する。LTDには、異種の路側カメラから収集した多様な道路形状、交通参加者、照明条件、悪天候にまたがる、高品質なVQAペア11.6K件が含まれる。本データセットは、相補的な3つのタスクを統合している。すなわち、きめ細かなマルチオブジェクトのグラウンディング、マルチ画像のカメラ選択、マルチ画像のリスク分析である。これらは、相関が最小限の複数の視点に対する共同推論を要求し、危険な物体、要因、危険な道路方向を推定する。注釈の忠実性を担保するために、複数モデルによる視覚言語生成に加えて、相互検証(クロスバリデーション)と人を介したループでの改良を組み合わせる。LTDを土台として、さらにUniVLTを提案する。これは、カリキュラムに基づく知識転移によって学習された交通の基盤モデルであり、単一のアーキテクチャ内で微視的ADの推論と巨視的な交通分析を統合する。LTDおよび複数のADベンチマークに対する大規模な実験により、UniVLTは多様なドメインにわたるオープンエンド推論タスクでSOTA性能を達成する一方で、複雑なマルチビュー交通シナリオにおいて既存の基盤モデルが抱える限界も明らかにする。
安全なモビリティに向けて:オープンエンドな視覚言語データセットを可能にする統合型交通基盤モデル
arXiv cs.AI / 2026/4/27
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- 本論文は、スマートモビリティや都市交通の安全には、小規模な自動運転(マイクロ視点)を超えたスケーラブルな知能が必要だと述べ、市街地規模の交通分析に対する研究の不足を指摘している。
- 著者らは、陸上交通基盤データセット(LTD)を提案し、不均一な路側カメラから収集した安全志向のVQAペア11.6K件を、道路形状・照明・交通参加者・悪天候まで幅広く含めて公開する。
- LTDは、微細なマルチ物体グラウンディング、複数画像のカメラ選択、複数画像のリスク分析の3つのタスクを統合し、相関が最小限の複数視点から危険物体・要因・危険な進行方向を推論するよう求める。
- 注釈の品質を担保するために、複数の視覚言語モデルによる生成、クロスバリデーション、そしてヒューマン・イン・ザ・ループによる修正を組み合わせている。
- さらにLTDを土台に、カリキュラムに基づく知識転移で学習するUniVLT(交通基盤モデル)を提案し、単一のアーキテクチャでマイクロな自動運転推論とマクロな交通分析を統合する。
- 実験ではLTDおよび複数の自動運転ベンチマーク上でオープンエンド推論タスクにおける最先端性能を示す一方、複雑なマルチビュー交通シーンでは既存基盤モデルに限界があることも明らかにしている。




