知識グラフ統合型プログラミング学習システムにおける、適応型および生成型AIに基づくフィードバックと推奨の評価

arXiv cs.AI / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMと、知識グラフおよび学習者のインタラクション履歴の両方を用いた検索拡張生成(RAG)を組み合わせる枠組みを提示し、形成的なコードフィードバックと演習の推奨を提供する。
  • この枠組みは既存の適応型プログラミング学習システムに組み込まれ、3つの指導モード(適応のみ、GenAIのみ、ハイブリッドなGenAI-適応)で評価される。
  • 4,956件のコード提出から導出した4つのログ特徴に基づくデータを用いた結果、GenAIベースのモードは、適応のみのフィードバックに比べて有意に正しいコードの生成が多く、必須のプログラミングロジックを欠いた提出が少ないことが示される。
  • ハイブリッドなGenAI-適応モードが全体として最も良い性能を示し、単一モードのいずれと比べても、正しい提出数が最大となり、誤りまたは不完全な試行が最も少なくなる。
  • アンケート結果では、学習者は概ねGenAIによるフィードバックを有用だと感じており、すべてのモードが、使用の容易さおよび有用性の認識において肯定的に評価されている。

Abstract

本論文は、知識グラフとユーザーの対話履歴の両方を活用する、検索拡張生成(RAG)アプローチに大規模言語モデル(LLM)を統合するフレームワークの設計と開発を紹介する。このフレームワークは、先に開発された適応学習支援システムに組み込まれ、学習者のコードを評価し、形成的フィードバックを生成し、演習を推薦するために用いられる。さらに本研究では、3つの指導モード(適応型、生成AI(GenAI)、およびハイブリッドGenAI-適応)にまたがる学習者の嗜好を調べる。実験的研究では、全ての実験グループにおける4956件のコード提出から導出した4つの主要なログ特徴量を用いて、学習パフォーマンスと学習者の知覚、ならびにこれら3つのモードの有効性を比較した。分析結果は、適応型モードのフィードバックを受けた学習者よりも、GenAIモードのフィードバックを受けた学習者の方が、有意に正しいコードが多く、必須のプログラミング論理を欠いたコード提出が少ないことを示している。とりわけ、ハイブリッドGenAI-適応モードは、最も多い正解提出数と、最も少ない誤りまたは不完全な試行数を達成し、適応型のみおよびGenAIのみの両方のモードを上回った。さらに、質問票への回答は、GenAIによって生成されたフィードバックが広く有用であると認識されていることを示した。一方で、全てのモードは、使いやすさと有用性の観点で肯定的に評価された。これらの結果は、ハイブリッドGenAI-適応モードが、測定した全てのログ特徴量において、他の2つのモードを上回ることを示唆している。