ArgBench:計算論的アーギュメンテーション課題におけるLLMのベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、計算論的アーギュメンテーションに基づくLLM手法を評価するための、初の標準化ベンチマーク「ArgBench」を提案し、過去研究の33データセットを統一形式で取り込みます。
  • ArgBenchを用いて、著者らは5つのLLMファミリーを46の計算論的アーギュメンテーション課題で評価し、主張抽出、観点の評価、主張の質の評価、主張の推論、主張生成をカバーします。
  • さらに、少数ショット提示の効果、推論ステップ数、モデル規模、学習に関わるスキルなど、性能を左右する要因について体系的な分析を行います。
  • これによりArgBenchは、LLMの議論(アーギュメンテーション)能力を実用面や安全面の応用文脈で評価・再利用するためのリソースとして位置づけられます。

Abstract

論証(argumentation)のスキルは、大規模言語モデル(LLM)にとって不可欠なツールキットである。これらのスキルは、自己省察、 多様な回答のための共同討論、ヘイトスピーチへの対抗など、さまざまなユースケースで重要になる。本論文では、計算論証(computational argumentation)へのLLMベースのアプローチを標準化された形で評価するための、最初のベンチマークを作成する。これは、先行研究からの33のデータセットを統一された形式で含むものである。このベンチマークを用いて、議論の掘り起こし(mining arguments)、視点の評価、議論の質の評価、議論についての推論、議論の生成をカバーする46の計算論証タスクにわたって、5つのLLMファミリーの汎化性能を評価する。ベンチマーク上では、少数ショット例(few-shot examples)、推論ステップ、モデル規模、学習スキルが、当該ベンチマークの計算論証タスクにおけるLLMの性能にどのように寄与するかについて、徹底的で体系的な分析を行う。