ソーシャルメディア分析における大規模言語モデルの能力評価:マルチタスク・クエスト
arXiv cs.CL / 2026/4/22
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本研究は、GPT-4/4o/3.5-Turbo、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2、BERT といった最新の大規模言語モデルを、X(旧Twitter)のデータセットで3つのソーシャルメディア分析タスクに対して包括的に評価しています。
- 著者判定では、「見たデータ」バイアスを抑えるために、多様なユーザー/投稿選択戦略に基づく体系的サンプリング手法を導入し、2024年1月以降に収集した新規ツイートで汎化性能を検証します。
- 投稿生成では、ユーザーらしい・真正らしいコンテンツをどの程度生成できるかを、包括的な評価指標と、ユーザー自身の文章に条件づけた場合の“本物らしさ”に関するユーザー調査の両面から評価します。
- ユーザー属性推定では、職業と関心を標準タクソノミー(IAB Tech Lab 2023およびU.S. SOC 2018)でアノテーションし、既存ベースラインに対するLLMの性能をベンチマークします。
- 本研究は、LLM駆動のソーシャルメディア分析に向けた統一的で再現可能なベンチマークを提供し、公開論文でコードとデータも公開予定だと述べています。



