CODE-GEN:複数選択式の問題生成のための、ヒューマン・イン・ザ・ループ型RAGベースのエージェント型AIシステム

arXiv cs.AI / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • CODE-GENは、人の介在(human-in-the-loop)と検索拡張(RAG)を組み合わせたエージェント型AIシステムとして導入されており、コースの学習目標に結び付く、文脈に整合した複数選択式のコーディング理解問題を生成することを目的とする。
  • このシステムは、2つの連携エージェント—問題を下書きするGeneratorと、7つの教育学的次元にわたって内容の質を独立に評価するValidator—を用い、計算上の正確性やコード検証を支援する専門ツールを併用する。
  • 6名の領域専門家による評価では、AIが生成した288問をレビューし、2,016件の人間—AIの評価比較と、追加の定性的フィードバックが得られた。
  • 結果は良好であり、多くの次元において、明示的な基準および計算チェックに整合した人間検証済みの成功率が79.9%〜98.6%と高いことが示された。
  • 本研究では、意味のあるもっともらしい選択肢(紛らわしい選択肢)の作成や、理解を深めるフィードバックの記述といった、より難しい教育学的タスクにおいては、人間の専門知識が依然として重要であることが分かった。

Abstract

私たちは、学生のコード推論力と理解力を育成するために、文脈に整合した多肢選択式の質問を生成する、人間を介在させた(human-in-the-Loop)検索拡張生成(RAG)ベースのエージェント型AIシステムであるCODE-GENを提案します。CODE-GENは、生成(Generator)エージェントがコース固有の学習目標に整合した多肢選択式のコード理解問題を生成し、一方でバリデータ(Validator)エージェントが7つの教育学的側面にわたって内容の質を独立に評価する、エージェント型AIアーキテクチャを採用しています。両エージェントは、計算の精度を高め、コード出力を検証するための専門ツールで強化されています。CODE-GENの有効性を評価するために、288個のAI生成質問を判断した6名の人間の専門分野担当者(SME)を対象とする評価研究を実施しました。SMEは合計2,016の人間—AIの評価ペアを作成し、Validatorの評価に対する一致または不一致が示され、さらに131件の定性的なフィードバックの実例が得られました。SMEの判断の分析から、システムは高い性能を示しており、7つの教育学的側面すべてにおける人間が検証した成功率は79.9%から98.6%の範囲でした。定性的フィードバックの分析は、CODE-GENが、問題の明確さ、コードの妥当性、概念の整合、正答の妥当性など、計算による検証や明示的な基準への適合に適した側面で高い信頼性を達成していることを明らかにしています。対照的に、教育的に意味のある誤答(distractors)の設計や、理解を強化する質の高いフィードバックの提供など、より深い教育判断を要する側面では、人間の専門性が依然として不可欠です。これらの知見は、AI支援による教育コンテンツ生成において、人間とAIの取り組みを戦略的に配分することに役立ちます。