スコアの先へ:微視的な能力による診断的LLM評価
arXiv cs.AI / 2026/4/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、性能を単一の集約スコアに潰してしまう従来のLLM評価では、モデルの能力におけるタスク固有の重要なばらつきが見えなくなると主張する。
- アイテム—能力の対応行列に基づき、多次元項目応答理論(Multidimensional Item Response Theory)を用いた認知診断の枠組みを提案し、きめ細かな能力水準を推定する。
- 数学については、著者らが認知理論と領域知識に根ざした35次元の能力タクソノミーを構築し、未見のベンチマーク問題に対する成績を予測できるようにする。
- 41のモデルにわたる実験により、強い基準妥当性と頑健な予測性能が示される(ベンチマーク内でAUCは約0.80〜0.89、ベンチマーク間で約0.77〜0.86)ことが確認され、単純なベースラインよりも優れている。
- この枠組みは領域を超えて一般化し、物理(27次元)、化学(58次元)、計算機科学(12次元)で機能する。対象別トレーニング、能力に基づくモデル選択、ベンチマーク設計といった用途が想定される。




