スタンス検出におけるプロンプト手法とマルチエージェント手法の体系的比較

arXiv cs.CL / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、スタンス検出に対する5つのLLMベース手法を体系的に比較し、プロンプトベース推論(Direct Prompting、Auto-CoT、StSQA)とマルチエージェントによる討論(COLA、MPRF)の両方を扱っています。
  • 4つのデータセットと14のサブタスクで、15モデル(7B〜72B+パラメータ)を用いた実験の結果、結果が揃っているモデルでは最良のプロンプト手法が最良のエージェント手法を上回りました。
  • マルチエージェント討論はコストも大きく増加し、最良のプロンプト手法に比べてサンプルあたりAPI呼び出しが約7〜12倍必要です。
  • 性能への影響は手法よりもモデル規模の方が大きく、32Bあたりで改善が頭打ちになる傾向が示されました。
  • さらに、理由付け強化モデル(DeepSeek-R1)は同程度のサイズの汎用モデルに対して一貫して優位とは限らないことが分かり、スタンス検出では単純なプロンプトがより有効かつ効率的になり得る、という示唆が得られます。