構築回答に対するLLM支援ルーブリック採点を信頼できる形で設計する:物理試験からの証拠
arXiv cs.AI / 2026/4/15
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本研究は、GPT-4oを用いた手書きの学部物理回答に対するAI支援ルーブリック採点の信頼性を評価し、2回の採点ラウンドでの結果を教員の評価と比較した。
- 合計点における人間–AIの一致度は概ね人間同士の採点者間信頼性と同程度だったが、推論が部分的または曖昧になる中間レベルのパフォーマンスでは一致度が低下した。
- 観点(クライテリオン)レベルの結果では、明確に定義された概念的スキルについては整合性が強かった一方で、長く、より主観性の高い手続き的判断では整合性が弱かった。
- より細分化されたチェックリスト形式のスキル・ルーブリックは、ホリスティック(総合的)なルーブリックと比べて採点の一貫性を改善し、信頼性の主な要因がルーブリックの構造であることを示した。
- 系統的なテストにより、プロンプト形式は二次的な影響にとどまり、モデルの温度は比較的小さな影響しか与えないことが分かり、信頼できるLLM支援STEM採点の実装に向けた実践的な提言が得られた。




