広告

AIはティーチングパートナーになり得るか?3つの教授戦略においてChatGPT、Gemini、DeepSeekを評価する

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、初心者のCプログラミング学習者を対象とした3つの教授法(Examples、Explanations & Analogies、Socratic Method)に焦点を当てた評価プロトコルを用い、「教授エージェント」としてChatGPT、Gemini、DeepSeekを比較する。
  • ExamplesおよびExplanations/Analogiesにおいて、モデルはいずれも概ね同様の対話パターンを示しており、これらの教授アプローチに対して同程度の有効性があることを示唆する。
  • Socratic Methodでは、モデルの振る舞いが選択した戦略と最初のプロンプトの両方に対してより敏感になり、注意深いプロンプト設計なしでは一貫性の低いパフォーマンスになることが示される。
  • 人間の評価者は全体としてChatGPTとGeminiに高い評価を付け、DeepSeekは評価基準全体で低いスコアであった。これは、LLM間で教授的な質に測定可能な差があることを反映している。
  • 本論文は、AIチュータリングに関する一般的主張に頼るのではなく、体系的な人間評価を用いることで、LLMの教授スキルに関する実証的エビデンスの不足に取り組む。

Abstract

大規模言語モデル(LLM)が、説明、フィードバック、そして指導を通じて学習を支援できるという期待が高まっています。しかし、その急速な導入と広範な注目にもかかわらず、LLMの教育的スキルに関する実証的な根拠は依然として限られています。本記事では、教授エージェントとして振る舞う代表的なLLM、すなわちChatGPT、DeepSeek、Geminiを対象とした比較研究を提示します。評価プロトコルを開発し、3つの教育的方略、すなわち「例」「説明とたとえ」「ソクラテス式メソッド」に焦点を当てました。6人の人間の評価者が、初心者に対してCプログラミング言語を教える状況で評価を実施しました。その結果、例と説明・たとえの教育方略において、LLMモデルは同様の相互作用パターンを示しました。一方、ソクラテス式メソッドでは、モデルが教育方略および初期プロンプトに対してより高い感度を示しました。全体として、ChatGPTとGeminiはより高い評価を受けたのに対し、DeepSeekは基準全体でより低い評価となり、モデル間で教育的パフォーマンスに違いがあることが示されました。

広告