TRIP-Evaluate:交通分野の大規模モデルを評価するためのオープンなマルチモーダル・ベンチマーク

arXiv cs.CV / 2026/5/5

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • TRIP-Evaluateは、規制に関する質問応答、交通管理支援、エンジニアリングレビュー、自動運転のシーン推論など、交通タスク向けに大規模(マルチ)モーダルモデルを評価するためのオープンなマルチモーダル・ベンチマークとして提案されました。
  • このベンチマークは、車両・交通管理・旅行者・計画/設計といった機能をカバーする役割-タスク-知識のタクソノミーに基づき837件のアイテムを整理しており、能力・モダリティ・難易度のラベルにより、全体精度から個別の失敗モードまで細かく診断できます。
  • 初回リリースにはテキスト596件、画像198件、ポイントクラウド43件が含まれ、従来の公開ベンチマークで不足しがちだったテキスト/画像/ポイントクラウドを横断した評価を可能にします。
  • TRIP-Evaluateは、ベンチマーク作成、品質管理、プロンプト、デコーディング、スコアリングを標準化し、モデル間の比較可能性と再現可能な回帰テストを支えます。
  • 初期結果ではテキスト単体の性能が向上している一方で、ルール制約下の推論、多段のエンジニアリング計算、マルチモーダルおよびポイントクラウドのシーン理解には依然として大きな弱点が残っており、安全な導入に向けた改善領域が示されています。

要旨: 大規模言語モデル(LLM)およびマルチモーダル大規模モデル(MLLM)は、規制に関する質問応答、交通管理支援、工学レビュー、自動運転のシーン推論といった輸送タスクに、ますます幅広く用いられている。とはいえ、輸送のワークフローは、ルールに強く依存し、計算量が大きく、安全性に直結し、かつ本質的にマルチモーダルである。既存の一般的なベンチマークでは、モデルが規制を正しく適用できるか、検証可能な工学計算を実行できるか、交通シーンを確実に解釈できるかについての十分な根拠が示されていない。一方で、公に利用可能な輸送ベンチマークは数が少ないため、対象範囲が狭いままであり、さらにテキスト、画像、ポイントクラウドデータにまたがるきめ細かな診断をほとんど支援しない。こうしたギャップを埋めるため、我々は輸送分野の大規模モデル向けオープンなマルチモーダルベンチマークであるTRIP-Evaluateを提案する。このベンチマークは、車両、交通管理、旅行者、計画・設計の機能をカバーする役割-タスク-知識の分類法(taxonomy)を用いて837件の項目を整理している。各項目には、能力、モダリティ、難易度のラベルが付与されており、全体の正確さから、特定の失敗モードに至るまでの診断を可能にする。現在のリリースには、596件のテキスト項目、198件の画像項目、43件のポイントクラウド項目が含まれる。TRIP-Evaluateはまた、項目の構築、品質管理、プロンプト設計、デコード、スコアリングを標準化することで、モデル間の比較可能性を高める。多様なモデル群に対する結果では、テキストベースの性能は改善しているものの、多段階の工学計算、ルール制約下での推論、マルチモーダルなシーン理解、ポイントクラウド理解には依然として重大な弱点が残っている。総じて、TRIP-Evaluateは、モデル選定、回帰テスト、輸送アプリケーションにおけるより安全な導入のための、再現可能で診断可能であり、かつ工学的整合性のある評価ベースラインを提供する。