ソーシャルメディア分析における大規模言語モデルの能力評価:マルチタスク・クエスト

arXiv cs.CL / 2026/4/22

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本研究は、GPT-4/4o/3.5-Turbo、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2、BERT といった最新の大規模言語モデルを、X(旧Twitter)のデータセットで3つのソーシャルメディア分析タスクに対して包括的に評価しています。
  • 著者判定では、「見たデータ」バイアスを抑えるために、多様なユーザー/投稿選択戦略に基づく体系的サンプリング手法を導入し、2024年1月以降に収集した新規ツイートで汎化性能を検証します。
  • 投稿生成では、ユーザーらしい・真正らしいコンテンツをどの程度生成できるかを、包括的な評価指標と、ユーザー自身の文章に条件づけた場合の“本物らしさ”に関するユーザー調査の両面から評価します。
  • ユーザー属性推定では、職業と関心を標準タクソノミー(IAB Tech Lab 2023およびU.S. SOC 2018)でアノテーションし、既存ベースラインに対するLLMの性能をベンチマークします。
  • 本研究は、LLM駆動のソーシャルメディア分析に向けた統一的で再現可能なベンチマークを提供し、公開論文でコードとデータも公開予定だと述べています。

Abstract

本研究では、Twitter(X)データセット上の3つの主要なソーシャルメディア分析タスクにおいて、GPT-4、GPT-4o、GPT-3.5-Turbo、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2、BERTを含む最新のLLMを対象に、初の包括的な評価を提示します。タスクは (I) ソーシャルメディア著者性検証、(II) ソーシャルメディア投稿生成、(III) ユーザ属性推定です。著者性検証では、多様なユーザおよび投稿選択戦略にわたる体系的なサンプリング枠組みを導入し、「seen-data」バイアスを緩和するために、2024年1月以降に新たに収集したツイートに対する汎化性能を評価します。投稿生成では、包括的な評価指標を用いて、LLMが真正でユーザらしいコンテンツを生成できる能力を評価します。タスクIとIIをつなぐ形で、ユーザ自身の文章に基づいて条件づけられたLLM生成投稿に対する、実ユーザの認識を測定するためのユーザスタディを実施します。属性推定では、2つの標準化された分類体系(IAB Tech Lab 2023および2018 U.S. SOC)を用いて職業と関心を注釈し、既存のベースラインに対してLLMをベンチマークします。総合すると、本統合的な評価は新たな洞察を提供し、LLM駆動のソーシャルメディア分析に向けた再現可能なベンチマークを確立します。コードとデータは補足資料で提供され、また投稿後には公に利用可能にされます。