概要: デジタルコンテンツ、特にソーシャルメディア上の短尺動画の普及が、公共の言説において話題がどのように議論され、理解されるかを大きく変えました。本研究では、ソーシャルメディアデータに対してゼロショットおよびクラスタリング能力を評価することで、自動化された視覚的なテーマ検出を発展させます。(1)VideoChatGPT、PandaGPT、VideoLLava などの注目すべきVLM(Vision-Language Model)について、ゼロショット画像分類を用いてその能力を評価し、フレームごとのCLIP画像分類によって与えられるベースラインと性能を比較しました。(2)クラスタリングを最小コストのマルチカット問題として扱うことで、教師なしの方法で洞察に富むパターンを明らかにすることを目指します。両方の分析戦略について、広範な評価と実務者向けの実践的なガイダンスを提供します。VLMは現在、気候変動に特化したクラスを検出できませんが、クラスタリング結果は特徴的な視覚フレームです。%VLMは現在、気候変動に関する言説を理解できないため、画像埋め込みモデルのクラスタリング評価に焦点を当てます。ConvNeXt V2 と DINOv2 の両方が有意義なクラスタを生成することを見出します。DINOv2 はよりスタイルの違いと抽象的なカテゴリに焦点を当てる一方、ConvNeXt V2 はよりきめ細かな違いの点でクラスタが異なります。コードは https://github.com/KathPra/ClimateVID.git で公開されています。
ClimateVID――ソーシャルメディア動画の分析と課題
arXiv cs.CV / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ソーシャルメディアの短尺動画に対する自動的なビジュアル・テーマ検出を扱い、ゼロショット分類と教師なしクラスタリングの両アプローチで、世論の話題の傾向を可視化しようとします。
- 著者らは、VLM(VideoChatGPT、PandaGPT、VideoLLaVA)をフレームごとのCLIPベースラインと比較し、学習なしでどの程度ビジュアルのテーマを捉えられるかを評価しています。
- 現状のVLMでは気候変動に特化したクラスを確実に検出できないため、画像埋め込みモデルを用いたクラスタリングに焦点を移し、どの視覚フレームがまとまるかを分析します。
- クラスタリングは最小コスト・マルチカット問題として定式化され、ConvNeXt V2とDINOv2はいずれも有意義なクラスタを生成しつつ、クラスタの性質が異なることが示されます。
- 充実した評価と実務者向けの手引きが提供され、あわせてGitHubでコードが公開されています。