ConceptKT:知識トレーシングにおける概念レベルの欠如予測のためのベンチマーク

arXiv cs.CL / 2026/3/26

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来の知識トレーシング(KT)システムは主に「生徒が正答するかどうか」を予測するものであり、誤答の原因となる特定の概念的な欠落に関する診断的な洞察が欠けていると主張する。
  • 将来の問題で生徒がどの概念に苦戦しそうかを予測する、新しいタスクとして「概念レベルの欠如予測(concept-level deficiency prediction)」を提案する。
  • 著者らは、各設問に必要な概念と、不正答によって示唆される欠落概念の両方をカバーする注釈を備えた知識トレーシング・データセット「ConceptKT」を提示する。
  • 実験では、KTに対するインコンテキスト学習を調査し、正答性と概念レベルの診断の両方を評価するために複数の大規模言語/推論モデルのアプローチを検討し、情報量の多い履歴レコードを選択する戦略を比較する。
  • 結果は、概念整合性と意味類似度に基づく履歴選択により、正答予測と欠如識別の両方の性能が向上することを示している。

Abstract

知識トレーシング(KT)は、パーソナライズされた学習を支援するために学生の知識をモデル化する重要な手法である。とはいえ、ほとんどのKTシステムは二値の正誤予測に集中しており、誤りの原因となる根本的な概念の誤解を診断できない。こうしたきめ細かな診断フィードバックは、的を絞った指導や効果的なリメディエーションを設計するために不可欠である。本研究では、概念レベルの不足(deficiency)予測という課題を導入する。これは、従来のKTを拡張し、将来の問題で学生が苦手としそうな特定の概念を特定することである。我々は、各設問を解くために必要な概念と、誤った応答の背景にある欠落概念の両方を捉えるラベルが付与されたデータセットであるConceptKTを提示する。KTに対するインコンテキスト学習アプローチを調査し、さまざまな大規模言語モデル(LLM)および大規模推論モデル(LRM)の診断能力を評価する。情報価値の高い履歴レコードを選択するための異なる戦略も検討する。実験結果は、概念的整合性と意味的類似性に基づいて応答履歴を選択することで、正誤予測と概念レベルの不足の同定の両方において性能が向上することを示している。