ArgBench：計算論的アーギュメンテーション課題におけるLLMのベンチマーク

arXiv cs.CL / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、計算論的アーギュメンテーションに基づくLLM手法を評価するための、初の標準化ベンチマーク「ArgBench」を提案し、過去研究の33データセットを統一形式で取り込みます。
ArgBenchを用いて、著者らは5つのLLMファミリーを46の計算論的アーギュメンテーション課題で評価し、主張抽出、観点の評価、主張の質の評価、主張の推論、主張生成をカバーします。
さらに、少数ショット提示の効果、推論ステップ数、モデル規模、学習に関わるスキルなど、性能を左右する要因について体系的な分析を行います。
これによりArgBenchは、LLMの議論（アーギュメンテーション）能力を実用面や安全面の応用文脈で評価・再利用するためのリソースとして位置づけられます。

Abstract

論証（argumentation）のスキルは、大規模言語モデル（LLM）にとって不可欠なツールキットである。これらのスキルは、自己省察、多様な回答のための共同討論、ヘイトスピーチへの対抗など、さまざまなユースケースで重要になる。本論文では、計算論証（computational argumentation）へのLLMベースのアプローチを標準化された形で評価するための、最初のベンチマークを作成する。これは、先行研究からの33のデータセットを統一された形式で含むものである。このベンチマークを用いて、議論の掘り起こし（mining arguments）、視点の評価、議論の質の評価、議論についての推論、議論の生成をカバーする46の計算論証タスクにわたって、5つのLLMファミリーの汎化性能を評価する。ベンチマーク上では、少数ショット例（few-shot examples）、推論ステップ、モデル規模、学習スキルが、当該ベンチマークの計算論証タスクにおけるLLMの性能にどのように寄与するかについて、徹底的で体系的な分析を行う。