ArgBench:計算論的アーギュメンテーション課題におけるLLMのベンチマーク
arXiv cs.CL / 2026/4/21
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、計算論的アーギュメンテーションに基づくLLM手法を評価するための、初の標準化ベンチマーク「ArgBench」を提案し、過去研究の33データセットを統一形式で取り込みます。
- ArgBenchを用いて、著者らは5つのLLMファミリーを46の計算論的アーギュメンテーション課題で評価し、主張抽出、観点の評価、主張の質の評価、主張の推論、主張生成をカバーします。
- さらに、少数ショット提示の効果、推論ステップ数、モデル規模、学習に関わるスキルなど、性能を左右する要因について体系的な分析を行います。
- これによりArgBenchは、LLMの議論(アーギュメンテーション)能力を実用面や安全面の応用文脈で評価・再利用するためのリソースとして位置づけられます。




