LLMベースの論証分類に関する総合的研究:Llama から DeepSeek を経て GPT-5.2 まで

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • LLMベースの論証分類の包括的評価は、Args.meとUKPの公開データセット上で、GPT-5.2、Llama 4、DeepSeekを比較し、チェーン・オブ・ソート(CoT)プロンプティング、プロンプトの言い換え、投票、確信度ベースの分類といったプロンプティング戦略を用いる。
  • GPT-5.2は最も高性能なモデルとして浮上し、UKPで78.0%、Args.meで91.9%の精度を達成。プロンプティング技術により、性能と頑健性が数パーセントポイント向上した。
  • 本研究は定性的なエラー分析を提供し、プロンプトの不安定性、暗黙の批判の検出の難しさ、複雑な論証構造、特定の主張との乖離といった一貫した失敗モードを特定した。
  • 本研究は、高度なプロンプティングを用いて複数の議論マイニングデータセットで定量的ベンチマークと定性的分析を組み合わせた初めての試みであり、今後の議論マイニング研究のベストプラクティスに寄与する。

要旨:アーギュメントマイニング(AM)は、主張や前提といった論証要素の自動識別と分類、およびそれらの間の関係性に焦点を当てた学際的な研究分野です。大規模言語モデル(LLMs)の最近の進歩は、従来の機械学習アプローチと比較して、論証分類の性能を大幅に向上させました。本研究は、GPT-5.2、Llama 4、DeepSeek などの最先端の LLM を、Args.me や UKP などの大規模で公開されている論証分類コーパス上で包括的に評価します。評価には、Chain-of-Thought prompting(思考の連鎖を用いたプロンプティング)、プロンプトの言い換え、投票、確信ベースの分類といった高度なプロンプティング戦略を取り入れています。モデルの挙動を評価するために、定量的な性能指標と定性的なエラー分析の両方を実施します。研究で最も性能の高いモデル(GPT-5.2)は、UKPで78.0%、Args.meで91.9%の分類正確度を達成します。プロンプトの言い換え、マルチプロンプト投票、確信推定の活用は、分類性能と頑健性をさらに向上させます。これらの手法は、通常2%から8%程度の精度とF1指標をモデルの性能として増加させます。しかし、定性的分析は、プロンプトの作成に関する不安定さ、暗黙の批評を検出する難しさ、複雑な論証構造の解釈、特定の主張と論証を整合させることといった、モデル間で共有される体系的な故障モードを明らかにします。本研究は、複数の論証マイニングデータセットに対して、定量的ベンチマークと定性的エラー分析を統合し、高度な LLM プロンプティング戦略を用いた初の包括的評価を提供します。