Street View画像からのマルチモーダルLLM活用による建築環境・住宅属性の評価
arXiv cs.CV / 2026/4/24
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research
要点
- この論文は、マルチモーダルLLMとGoogle Street View画像を用いて、米国全土の建物の状態を自動評価する枠組みを提案しています。
- 比較的小規模な人手ラベル付きデータでGemma 3 27Bを微調整した結果、人間の平均評価(MOS)との整合性が高く、MOSベンチマークに対してSRCCとPLCCで個々の評価者を上回りました。
- 遅延やコストを抑えるため、知識蒸留によりGemma 3 27BからGemma 3 4Bへ圧縮し、約3倍の高速化を実現しつつ同等の性能を達成しています。
- さらに、EfficientNetV2-M(CNN)やSwinV2-B(Transformer)へも蒸留し、元の性能に近い精度で約30倍の速度向上を得ています。
- また、幅広い建築環境・住宅属性について人間—AI整合性の研究で評価し、住宅所有者向けのダウンストリーム分析を支援する可視化ダッシュボードも開発しています。




