要旨: 作業者の周囲にある建設上の危険を正確かつ適時に特定することは、職場での事故を防ぐために不可欠である。大規模なビジョン・言語モデル(VLM)は強力な文脈推論能力を示す一方で、高い計算コストが近リアルタイムの建設危険検知への適用を制限している。これとは対照的に、4 billion(40億)パラメータ未満の小規模ビジョン・言語モデル(sVLM)は効率が向上するが、複雑な建設シーンを解析する際に精度が低下し、ハルシネーション(もっともらしい誤回答)を起こしがちである。そこで本研究は、物体検出とマルチモーダル推論を統合して文脈に基づく危険の同定を行う、検出ガイド付きsVLMフレームワークを提案する。このフレームワークではまず、YOLOv11n検出器を用いてシーン内の作業者と建設機械をローカライズする。検出されたエンティティは次に、構造化されたプロンプトに埋め込まれ、sVLMの推論プロセスを導くことで、空間的に根拠づけられた危険評価を可能にする。このフレームワークにおいて、6つのsVLM(Gemma-3 4B、Qwen-3-VL 2B/4B、InternVL-3 1B/2B、SmolVLM-2B)を、危険注釈および説明的な根拠を含む厳選された建設現場画像データセットに対してゼロショット設定で評価した。提案手法は、全てのモデルにわたって危険検知性能を一貫して改善した。最良のモデルであるGemma-3 4Bは、ベースライン構成における34.5%に対し、F1スコアが50.6%を達成した。説明品質も大幅に改善し、BERTScore F1が0.61から0.82へ上昇した。物体検出を組み込んでいるにもかかわらず、フレームワークは最小限のオーバーヘッドしか導入せず、推論時に画像あたり追加で2.5 msのみを要する。これらの結果は、軽量な物体検出と小規模VLMの推論を統合することで、文脈に応じた建設安全の危険検知に対する効果的かつ効率的な解決策が得られることを示している。
建設安全ハザード識別における物体検出と小型VLMの統合
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究は、効率的な小型ビジョン言語モデル(sVLM)と物体検出を組み合わせることで、複雑なシーンにおける精度を向上させ、幻覚(hallucination)を低減しつつ、建設現場におけるリアルタイムな安全ハザード識別を目指す。
- 提案する検出ガイド型の枠組みでは、YOLOv11n検出器を用いて作業者や建設機械を局在化し、それらの実体を構造化されたプロンプトに投入することで、空間的に根拠づけられたマルチモーダル推論を行う。
- 6種類のsVLM(例:Gemma-3 4B、Qwen-3-VLのバリアント、InternVL-3、SmolVLM-2B)を、キュレーションされた建設ハザードデータセットに対してゼロショット条件で評価したところ、いずれもハザード検出性能が向上した。
- 最良のモデル(Gemma-3 4B)では、F1スコアがベースラインの34.5%から50.6%へ上昇し、説明の質も大きく改善した(BERTScore F1が0.61から0.82へ)。
- このアプローチは計算オーバーヘッドを低く抑え、推論時に画像あたり約2.5 msを追加するにとどまるため、大規模なVLMのみの手法よりも、ニアリアルタイム用途として実用的である。
