データ構造のコンピュータサイエンス大学試験における大規模言語モデルの評価

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データ構造に関するコンピュータサイエンスの試験問題に対して、大規模言語モデル(LLM)を包括的に評価します。
  • Tel Aviv University(TAU)の試験問題から構築した新しいベンチマークデータセットを提示し、閉形式および多肢選択式の問題への対応力を測定します。
  • 評価では、OpenAIのGPT-4oとAnthropicのClaude 3.5に加え、小型モデル(Mathstral 7B、LLaMA 3 8B)もTAUのベンチマークで比較します。
  • これらの結果は、現在のLLMがCS教育の評価問題でどの程度の能力を示すかを理解するための知見を提供することを目的としています。