Street View画像からのマルチモーダルLLM活用による建築環境・住宅属性の評価

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

共有:

要点

この論文は、マルチモーダルLLMとGoogle Street View画像を用いて、米国全土の建物の状態を自動評価する枠組みを提案しています。
比較的小規模な人手ラベル付きデータでGemma 3 27Bを微調整した結果、人間の平均評価（MOS）との整合性が高く、MOSベンチマークに対してSRCCとPLCCで個々の評価者を上回りました。
遅延やコストを抑えるため、知識蒸留によりGemma 3 27BからGemma 3 4Bへ圧縮し、約3倍の高速化を実現しつつ同等の性能を達成しています。
さらに、EfficientNetV2-M（CNN）やSwinV2-B（Transformer）へも蒸留し、元の性能に近い精度で約30倍の速度向上を得ています。
また、幅広い建築環境・住宅属性について人間—AI整合性の研究で評価し、住宅所有者向けのダウンストリーム分析を支援する可視化ダッシュボードも開発しています。

Abstract

我々は、大規模言語モデル（LLM）とGoogleストリートビュー（GSV）画像を活用することで、米国全土における建物の状態を自動的に評価するための新しい枠組みを提示する。人手でラベル付けした控えめなデータセット上でGemma 3 27Bを微調整することで、我々の手法は人間の平均意見スコア（MOS）との高い整合性を達成し、MOSベンチマークに対するSRCCおよびPLCCの観点で、個々の評価者でさえも上回る。効率を高めるために、知識蒸留を適用し、Gemma 3 27Bの能力を、同等の性能を達成しつつ3倍の速度向上を実現する小型のGemma 3 4Bモデルへと移植する。さらに、この知識をCNNベースのモデル（EfficientNetV2-M）とトランスフォーマ（SwinV2-B）へ蒸留し、ほぼ同等の性能を維持しながら30倍の速度向上を達成する。加えて、人間とAIの整合性に関する研究を通じて、幅広い建築環境および住宅属性の評価におけるLLMの能力を調査し、住宅所有者による下流分析のために、LLMの評価結果を統合する可視化ダッシュボードを開発する。我々の枠組みは、大規模な建物状態評価に対して柔軟で効率的なソリューションを提供し、人手によるラベリングを最小限に抑えつつ高精度を実現する。