どこまで到達しているか?数学コンテストにおけるLLMと人間の専門家のモデリング能力を体系的に評価する
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、ワークフローの各段階において専門家によって検証された基準を用い、LLMのエンドツーエンドの数学的モデリング能力を問題志向で段階的に評価する枠組みを提案する。
- この枠組みを検証するため、コンテスト問題に対して既存の評価手法よりも、提案手法の自動スコアと独立した人間の専門家による判断の一致が強いことを示す。
- 結果は、持続的な「理解–実行ギャップ」を明らかにする。LLMは初期段階(問題の同定と定式化)ではうまくいくが、解法、コード実装、結果分析などの実行段階で苦戦する。
- モデル規模を単に拡大してもこれらのギャップは解消されないことが分かり、失敗の原因を、仕様の不足、検証の欠如、そしてエラーが段階をまたいで伝播することにあるとする。
- 著者らは、このギャップを埋めるにはスケーリング以外の手法が必要であり、複雑な現実世界の問題解決ワークフローにLLMを展開するための指針を提示すると主張する。




