Abstract
橋梁インフラの点検は、熟練した専門家による評価を必要とする重要な一方で、労働集約的な作業です。鉄筋の露出、ひび割れ、腐食といった構造損傷の判定が求められます。本論文では、自動化された橋梁の損傷評価のための量子化ビジョン・言語モデル(VLMs)に関する包括的な研究を提示し、記述の質、推論速度、必要な計算資源の間のトレードオフに焦点を当てます。視覚的な損傷分析にLLaVA-1.5-7Bを用い、構造化JSON抽出、ルールベースの優先度スコアリングを組み合わせたエンドツーエンドのパイプラインを開発します。消費者向けグレードのGPUでの導入を可能にするため、254枚の鉄筋露出画像に対して、3つの量子化レベルであるQ4_K_M、Q5_K_M、Q8\_0を体系的に比較します。損傷タイプの認識と重症度の分類を評価する5点の品質評価フレームワークを導入します。本研究の結果から、Q5_K_Mが最適なバランスを達成していることが示されました。すなわち、品質スコア3.18\pm1.35/5.0、推論時間5.67s/画像、品質/秒効率0.56であり、Q4_K_Mより8.5%高い品質を実現しながら、速度低下はわずか4.5%にとどまります。さらに、Q8_0と同等の品質を維持しつつ、推論は25%高速です。統計分析により、Q5_K_Mはテキスト品質との相関が最も弱い(-0.148)ことが明らかになり、記述の長さにかかわらず一貫した性能を示すことがわかりました。
返却形式: {"translated": "翻訳されたHTML"}