SciEval:K-12理科の教材を自動評価するためのベンチマーク
arXiv cs.AI / 2026/4/29
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、K-12理科の教材評価における専門家レビューのスケーラビリティ問題に対処するため、自動評価ベンチマーク「SciEval」を提案します。
- 教育者が設計したルーブリック(EQuIP)に沿って、評価スコアと根拠(エビデンス)を生成AIで予測する「Automatic Instructional Materials Evaluation(AIME)」を定式化し、273件の授業レベル教材を13基準で専門家が注釈したデータセットに基づいています。
- SciEvalでGPT、Gemini、Llama、Qwenといった主流LLMを評価したところ、特に何も調整しない状態では強い性能が得られず、教育領域の評価における信頼性の不足が示されます。
- SciEvalでQwen3をファインチューニングすると、保持されたテストセットで最大11%の性能向上が確認され、教材評価の自動化を実用化するには領域特化の学習が重要であることが示唆されます。




