概要: 汎用の視覚言語モデルは日常的な領域で強い性能を示す一方、正確な専門用語、構造化された推論、そして工学標準への厳密な遵守を要する専門的な技術分野では苦戦する。本研究は、ドメイン固有の指示チューニングによって視覚言語モデルを用いた包括的な舗装状態の評価が可能になるかどうかを扱う。9つの異種の舗装データセットに由来する注釈を統合することで、32種類のタスクタイプにまたがる278,889件の画像-指示-応答ペアを含むデータセットPaveInstructを作成した。このデータセットで訓練された舗装基盤モデルであるPaveGPTは、知覚、理解、推論のタスクにわたって最先端の視覚言語モデルと比較評価された。指示チューニングによりモデルの能力は変化し、空間的グラウンディング、推論、生成タスクで20%を超える改善を達成しつつ、ASTM D6433に準拠した出力を生成した。これらの結果により、複数の専門システムを置き換える統一された対話型アセスメントツールを交通機関が導入できるようになり、ワークフローが簡素化され、必要な技術的専門知識の負担が軽減される。本アプローチは、橋梁の点検、鉄道の保守、建物の状態評価などのインフラ領域において、指示駆動型AIシステムを開発するための道筋を確立する。
包括的な路面状態の自動評価のための視覚言語基盤モデル
arXiv cs.CV / 2026/4/10
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、舗装の状態評価のような専門的な工学タスクにおいて、正確な用語と構造化された推論を必要とするため、ドメイン固有の指示チューニングによって視覚言語モデルの限界を克服できることを提案している。
- 9つの異種の舗装データセットに含まれる注釈を統合して構築した、舗装関連32種類のタスクにまたがる278,889件の画像–指示–応答ペアからなる大規模データセット「PaveInstruct」を導入する。
- 舗装に特化した視覚言語基盤モデル「PaveGPT」を学習し、指示チューニングにより、空間的なグラウンディング、推論、生成の各タスクにおいて20%以上の性能向上が得られることを示す。
- モデルの出力はASTM D6433規格に準拠していると報告されており、実世界の工学ワークフローにおけるより信頼性の高い自動評価を支える。
- 著者らは、これにより交通機関が複数の専用システムを置き換えるための単一の会話型ツールを利用できるようになると主張し、指示駆動型のアプローチを他のインフラ点検領域にも拡張することを提案している。


