コードブックからVLMへ：ソーシャルメディア上の気候変動に関する自動ビジュアル・ディスコース分析の評価

arXiv cs.CV / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

この論文は、コンピュータビジョンとビジョン言語モデルを用いて、ソーシャルメディア上の画像から気候変動に関する言説（ディスコース）を大規模に分析するための枠組みを提案している。
X（旧Twitter）の2つのデータセットで、6つのプロンプト可能なVLMと15のゼロショットCLIP系モデルをベンチマークし、動物コンテンツや気候変動の影響、気候アクション、画像の状況など5つの注釈次元を扱っている。
Gemini-3.1-flash-liteが全カテゴリと両データセットで総合的に最良の性能を示し、一方で中規模のオープンウェイトモデルとの差は比較的小さい。
著者らは、画像ごとの精度が中程度でも分布レベルの評価によって集団（人口）レベルの傾向を再現できるため、大規模なディスコース分析の出発点としてVLM予測が有効だと主張している。
chain-of-thoughtによる推論は性能を下げ、注釈次元に特化したプロンプト設計が性能を改善すると報告しており、再現性のためにツイートID/ラベルとコードを公開している。