要旨: 政治的分極化は、政策、人物、論点に関する信念の複雑な相互作用から生じる。しかし、ほとんどの計算論的分析は、言説を粗い党派ラベルにまで単純化し、これらの信念がどのように相互作用するのかを見落としている。これは特にオンラインの政治的会話で顕著であり、しばしば細かなニュアンスを含み、幅広い話題を扱うため、議論の対象と、その対象に対して表明されている意見を自動的に特定することが難しい。本研究では、大規模言語モデル(LLM)が、近年の自然言語処理タスクであるTarget-Stance Extraction(TSE)によってこの課題に対処できるかを検証する。TSEは、対象の同定と態度(スタンス)の検出を組み合わせ、政治的意見のよりきめ細かな分析を可能にする。そのために、r/NeutralPoliticsからのReddit投稿1,084件からなるデータセットを構築し、138種類の異なる政治的対象をカバーしたうえで、ゼロショット、少数ショット、コンテキスト拡張型のプロンプト戦略を用いて、複数の独自およびオープンソースのLLMを評価する。結果として、最良のモデルは、高度に訓練された人手アノテータと同程度の性能を示し、アノテータ間一致が低い難しい投稿に対しても頑健であることがわかった。これらの知見は、LLMが最小限の教師あり情報で複雑な政治的意見を抽出できることを示しており、計算社会科学および政治テキスト分析のためのスケーラブルなツールを提供する。
大規模言語モデルはターゲット・スタンス抽出により複雑な政治的意見を解きほぐす
arXiv cs.CL / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、大規模言語モデル(LLM)が扱われている政治的ターゲットと、そのターゲットに対して表明されているスタンスの両方を特定する方法として、ターゲット・スタンス抽出(Target-Stance Extraction: TSE)を提案し、大まかな党派ラベルを超えた分析を目指す。
- 研究者らは、ニュアンスのある複数争点にまたがる政治的言説に対するLLMの性能を評価するため、r/NeutralPolitics から138の政治的ターゲットにまたがる1,084件のReddit投稿からなるデータセットを構築した。
- 独自およびオープンソースのLLMに対して、ゼロショット、フェーズショット、文脈拡張型プロンプトを用いた実験を行った結果、最高性能のモデルは、高度に訓練された人手アノテータと同等の品質を達成できることが示された。
- 人手アノテータ間の一致が低い難しい投稿に対しても頑健であることが報告されており、曖昧なラベル付け条件下でも信頼性が高いことを示唆している。
- 全体として、本研究はTSEをLLMと組み合わせることで、最小限の教師データで計算社会科学およびより粒度の細かい政治テキスト分析をスケールさせる方法として位置付けている。