要旨: 数学教育におけるLLMの影響力を高めるには、プロンプトにまたがるそれらの数学的能力とバイアスに関するデータが必要です。このギャップを埋めるために、私たちはMEDS(Math Education Digital Shadows)を導入します。これは、人間やAIに似た条件のもとで、大規模言語モデルが数学をどのように推論し、報告するかを対応づけたデータセットです。MEDSは、14のLLM(Mistral、Qwen、DeepSeek、Granite、Phi、Grokといった系統)から、それぞれ28,000人の「人格」を対象として構成されます。各人格は、人間またはAIアシスタントのいずれかを「影」として追跡します。各記録/影には、心理学的・社会人口学的な人格メタデータとともに、一連のプロンプト、そして4種類の数学課題が含まれます: (i) オープンな数学インタビュー、(ii) 数学に対する認識に関する説明付きの3つの心理測定テスト、(iii) 数学に対する態度を捉える認知ネットワーク、(iv) 18問の高校数学のテスト問題と、それらの推論および確信度スコアです。MEDSは、従来の「スコアのみ」の数学ベンチマークと異なり、数学力スコアに加えて、自己効力感、数学不安、認知ネットワーク科学の概念を統合しています。データ検証の結果、サンプルされたLLMは、スキーマの整合性と一貫した人格を示しており、さらに、人間らしい否定的な数学態度、論理的誤謬、数学への過信といった、系統(ファミリー)固有の特徴も併せて観察されます。MEDSは、学習アナリティクスの専門家、認知科学者、そして数学におけるより安全なAIチュータの開発者に役立つでしょう。
LLMを用いた学習支援のための数学教育デジタル・シャドウ:模擬学習者とAIにおける数学成績・不安・自信
arXiv cs.AI / 2026/5/1
📰 ニュースModels & Research
要点
- 本論文では、MEDS(Math Education Digital Shadows)という新しいデータセットを提案し、人間に近い条件とAIアシスタントに近い条件の両方でLLMが数学をどう推論し、どう報告するかを測定することを目的としています。
- MEDSは、Mistral、Qwen、DeepSeek、Granite、Phi、Grokなどを含む14のLLMに対して、28,000の「パーソナ」を用意し、各シャドウには数学プロンプトと心理・社会人口統計のメタデータを組み合わせて記録します。
- 従来の数学ベンチマークを超え、数学の正確さだけでなく、自己効力感、数学不安、認知ネットワーク(態度)、および自信といった指標に紐づくタスク構成が含まれています。
- 妥当性確認ではスキーマの整合性と一貫したパーソナ行動が示される一方で、モデルファミリー固有の傾向(人間のような否定的な数学態度、論理の誤り、過度な自信など)も見つかっています。
- MEDSは、学習アナリティクス、認知科学の研究、そして数学の安全なAIチューター開発に役立つことが期待されています。




