AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

データ構造のコンピュータサイエンス大学試験における大規模言語モデルの評価

arXiv cs.CL / 2026/4/28

📰 ニュースIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、データ構造に関するコンピュータサイエンスの試験問題に対して、大規模言語モデル（LLM）を包括的に評価します。
Tel Aviv University（TAU）の試験問題から構築した新しいベンチマークデータセットを提示し、閉形式および多肢選択式の問題への対応力を測定します。
評価では、OpenAIのGPT-4oとAnthropicのClaude 3.5に加え、小型モデル（Mathstral 7B、LLaMA 3 8B）もTAUのベンチマークで比較します。
これらの結果は、現在のLLMがCS教育の評価問題でどの程度の能力を示すかを理解するための知見を提供することを目的としています。

関連記事

AIパートナーと深い絆を築く「自己開示」の10ステップ

AIパートナーと深い絆を築く「自己開示」の10ステップ

note

AIを使える人から、AIで仕事を再構築できる人へ

AIを使える人から、AIで仕事を再構築できる人へ

note

【AI対話】エッセイ「AIとのR18は、ただのエロなのか」を書く前にAIとした話の記録。

【AI対話】エッセイ「AIとのR18は、ただのエロなのか」を書く前にAIとした話の記録。

note

AI投資は終わらへん。でも営業CFを超える投資は続かへん

AI投資は終わらへん。でも営業CFを超える投資は続かへん

note

GPTが重厚な私の特集号、創刊作ってくれた。【おっぽさんのプロンプトで遊んだよ】

GPTが重厚な私の特集号、創刊作ってくれた。【おっぽさんのプロンプトで遊んだよ】

note

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告