S-GRADES -- 多様な評価設定における学生回答評価の一般化を研究する
arXiv cs.CL / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- S-GRADES は、14 の採点データセットを統合し、単一のインターフェースで自動エッセイ採点(AES)と自動短答採点(ASAG)を統一し、標準化されたアクセスと再現可能な評価プロトコルを提供する、新しいウェブベースのベンチマークです。
- このベンチマークはオープンソースで拡張性があり、データセットと評価設定の継続的な追加を可能にします。
- 著者らは、S-GRADES 上で最新の大規模言語モデル3つを、複数のプロンプト戦略を用いて評価し、例示データの選択とデータセット間の例示転移を研究しています。
- 分析は、エッセイと短答の採点タスク間に信頼性と一般化のギャップがあることを明らかにし、教育用 NLP における標準化されたクロスパラダム評価の必要性を強調しています。
- クロスパラダムで再現性のある評価プラットフォームを提供することで、S-GRADES は教育評価タスク間のより堅牢なモデル開発と公正な比較を促進することを目指します。
S-GRADES(Studying Generalization of Student Response Assessments in Diverse Evaluative Settings)を紹介します。これは、標準化されたアクセスと再現可能な評価プロトコルを備えた統一インターフェースの下で、14 の多様な採点データセットを統合するウェブベースのベンチマークです。このベンチマークは完全にオープンソースであり、拡張性を念頭に設計されており、新しいデータセットや評価設定の継続的な統合を可能にします。S-GRADES の有用性を示すために、最新の大規模言語モデル3機種を、複数のプロンプト戦略を用いてベンチマーク全体で評価します。さらに、例示データの選択とデータセット間の例示データ転送の影響を検討します。私たちの分析は、ベンチマーク主導の評価がエッセイと短答の採点タスク間の信頼性と一般化のギャップを明らかにし、標準化されたクロスパラダム評価の重要性を浮き彫りにすることを示しています。




