広告

損傷評価のための量子化ビジョン・言語モデル:LLaVA-1.5-7Bの量子化レベルに関する比較研究

arXiv cs.CV / 2026/3/31

📰 ニュース

要点

  • 本論文は、橋梁の自動損傷評価のための量子化ビジョン・言語モデルを研究し、記述の品質、推論速度、計算要件のバランスを取ることを目的とする。
  • LLaVA-1.5-7Bを用いて、視覚的損傷解析、構造化JSON抽出、ルールベースの優先度スコアリングを統合したエンドツーエンドのパイプラインを構築する。
  • 254枚の鉄筋露出画像を用い、Q4_K_M、Q5_K_M、Q8_0の量子化レベルを、損傷タイプの認識と重症度の分類の両方を評価する品質フレームワークに基づいて比較する。
  • 結果として、Q5_K_Mが最良のトレードオフを示し、Q4_K_Mより高い品質を達成しつつ、速度低下はわずかである。また、Q8_0と同等の品質を維持しながら、約25%速く動作する。
  • 本研究では、Q5_K_Mは品質指標とテキスト品質指標の相関が最も弱く、記述の長さが変わる場合でもより一貫した性能が得られることを示唆する。
  • categories: [

Abstract

橋梁インフラの点検は、熟練した専門家による評価を必要とする重要な一方で、労働集約的な作業です。鉄筋の露出、ひび割れ、腐食といった構造損傷の判定が求められます。本論文では、自動化された橋梁の損傷評価のための量子化ビジョン・言語モデル(VLMs)に関する包括的な研究を提示し、記述の質、推論速度、必要な計算資源の間のトレードオフに焦点を当てます。視覚的な損傷分析にLLaVA-1.5-7Bを用い、構造化JSON抽出、ルールベースの優先度スコアリングを組み合わせたエンドツーエンドのパイプラインを開発します。消費者向けグレードのGPUでの導入を可能にするため、254枚の鉄筋露出画像に対して、3つの量子化レベルであるQ4_K_M、Q5_K_M、Q8\_0を体系的に比較します。損傷タイプの認識と重症度の分類を評価する5点の品質評価フレームワークを導入します。本研究の結果から、Q5_K_Mが最適なバランスを達成していることが示されました。すなわち、品質スコア3.18\pm1.35/5.0、推論時間5.67s/画像、品質/秒効率0.56であり、Q4_K_Mより8.5%高い品質を実現しながら、速度低下はわずか4.5%にとどまります。さらに、Q8_0と同等の品質を維持しつつ、推論は25%高速です。統計分析により、Q5_K_Mはテキスト品質との相関が最も弱い(-0.148)ことが明らかになり、記述の長さにかかわらず一貫した性能を示すことがわかりました。

返却形式: {"translated": "翻訳されたHTML"}

広告