大規模に候補者を可視化する:Instagramの視覚的な政治コミュニケーションに向けたマルチモーダルLLM

arXiv cs.CV / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この研究は、2021年のドイツ連邦選挙キャンペーン期間中のInstagramにおける視覚的な政治コミュニケーション(VPC)分析について、従来のコンピュータビジョンモデルとマルチモーダルLLM(GPT-4o)を比較評価しています。
  • 対象とするのは、注目候補(フロントランナー)の人物特定や、Instagramストーリーズ/投稿内での人物数の計数といった実務的タスクです。
  • GPT-4oは比較したビジョン手法を大きく上回り、ストーリーズにおける顔認識でマクロF1スコア0.89、人物計数で0.86を達成しています。
  • これらの結果は、マルチモーダルLLMが政治コミュニケーションのための視覚コンテンツ分析をより大規模に、かつ精緻に行える可能性を示す一方で、今後の研究に向けた方法論上の論点も浮き彫りにしています。

Abstract

本論文は、特化した機械学習モデルおよび新たに登場したマルチモーダル大規模言語モデルが、視覚的政治コミュニケーション(VPC)分析においてどの程度の能力を有するかを評価する計算機による事例研究を提示する。2021年のドイツ連邦選挙キャンペーン期間中における、Instagramのストーリーズおよび投稿に見られる集中した可視性に焦点を当て、先行する政治家の特定と画像内の人物数のカウントについて、従来型のコンピュータビジョンモデル(FaceNet512、RetinaFace、Google Cloud Vision)とマルチモーダル大規模言語モデル(GPT-4o)の性能を比較する。GPT-4oは他のモデルを上回り、ストーリーズにおける顔認識でマクロF1スコア0.89、人物カウントで0.86を達成した。これらの結果は、先進的なAIシステムが政治コミュニケーションにおける視覚コンテンツ分析をスケールさせ、洗練させる可能性を示すとともに、今後の研究に向けた方法論上の考慮事項を明らかにしている。