AIはティーチングパートナーになり得るか？3つの教授戦略においてChatGPT、Gemini、DeepSeekを評価する

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、初心者のCプログラミング学習者を対象とした3つの教授法（Examples、Explanations & Analogies、Socratic Method）に焦点を当てた評価プロトコルを用い、「教授エージェント」としてChatGPT、Gemini、DeepSeekを比較する。
ExamplesおよびExplanations/Analogiesにおいて、モデルはいずれも概ね同様の対話パターンを示しており、これらの教授アプローチに対して同程度の有効性があることを示唆する。
Socratic Methodでは、モデルの振る舞いが選択した戦略と最初のプロンプトの両方に対してより敏感になり、注意深いプロンプト設計なしでは一貫性の低いパフォーマンスになることが示される。
人間の評価者は全体としてChatGPTとGeminiに高い評価を付け、DeepSeekは評価基準全体で低いスコアであった。これは、LLM間で教授的な質に測定可能な差があることを反映している。
本論文は、AIチュータリングに関する一般的主張に頼るのではなく、体系的な人間評価を用いることで、LLMの教授スキルに関する実証的エビデンスの不足に取り組む。

Abstract

大規模言語モデル（LLM）が、説明、フィードバック、そして指導を通じて学習を支援できるという期待が高まっています。しかし、その急速な導入と広範な注目にもかかわらず、LLMの教育的スキルに関する実証的な根拠は依然として限られています。本記事では、教授エージェントとして振る舞う代表的なLLM、すなわちChatGPT、DeepSeek、Geminiを対象とした比較研究を提示します。評価プロトコルを開発し、3つの教育的方略、すなわち「例」「説明とたとえ」「ソクラテス式メソッド」に焦点を当てました。6人の人間の評価者が、初心者に対してCプログラミング言語を教える状況で評価を実施しました。その結果、例と説明・たとえの教育方略において、LLMモデルは同様の相互作用パターンを示しました。一方、ソクラテス式メソッドでは、モデルが教育方略および初期プロンプトに対してより高い感度を示しました。全体として、ChatGPTとGeminiはより高い評価を受けたのに対し、DeepSeekは基準全体でより低い評価となり、モデル間で教育的パフォーマンスに違いがあることが示されました。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

AIはティーチングパートナーになり得るか？3つの教授戦略においてChatGPT、Gemini、DeepSeekを評価する

要点

Abstract

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer