二次レベル数学における異種LLMのHuman-in-the-Loopベンチマーク:自動コンピテンシー評価への応用
arXiv cs.AI / 2026/4/30
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、CBE(能力ベース教育)における「能力マッピング」の手作業負荷を背景に、二次レベル数学のコンピテンシー評価をLLMでどこまで自動化できるかを測るためのHuman-in-the-Loop型ベンチマーク枠組みを提案する。
- ネパールのGrade 10 Optional Mathematicsカリキュラムを用い、4つの数学トピックと4つの横断的コンピテンシー(理解、知識、演算の流暢さ、行動と相関)を含む多次元ルーブリックを作成した。
- 複数提供事業者のアンサンブル(オープンウェイトのLlama系2モデルと、Gemini系のプロプライエタリ2モデル)を、2名の数学教員によるグラウンドトゥルース(κ_w=0.8652)で評価した。
- 結果は「アーキテクチャ適合ギャップ」を示し、ルーブリックに基づく指示制約への適合は、モデルのパラメータ規模そのものよりも重要であることを示唆している。
- LLMは自律的な認定(自動証明)にはまだ不十分だが、Human-in-the-Loopの枠組みの中で予備的な証拠抽出を支援する高い価値があると結論づけている。