アブストラクト: 大規模言語モデル(LLM)による自動スコアリングの最適化においては、アンサンブルよりも戦略的なモデル選択と推論設定のほうが効果的である。高等学校の数学における、会話ベースの評価項目の採点に対して、自己整合性(同一モデル内での多数決)と推論努力を調べた。OpenAIおよびGoogleのフロンティア型モデルと低コスト型モデルを用い、合計900件の生徒の会話を、人手で採点したグラウンドトゥルースと照合して評価した。温度サンプリングは決定論的な呼び出しよりも精度を大幅に改善したが、アンサンブルサイズ(j = 1 から 7)を増やしても有意な改善は得られなかった。推論努力は採点精度との間に有意な正の線形トレンドを示したが、その効果はモデルファミリーによって異なった。効率フロンティア分析により、低い推論努力で最も高い精度を示す一方でコストも高い構成として Gemini 3.1 Pro Preview を特定した。推論なしの GPT-5.4 Nano および Mini は、費用対効果の最良のバランスを提供した。
LLMの自己一貫性と推論エフォートが自動採点精度とコストに与える影響
arXiv cs.AI / 2026/5/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 研究では、自動採点の精度最適化において、LLMの選定と推論設定を戦略的に行うことが、アンサンブルよりも効果的になり得ると示されています。
- 温度に基づくサンプリング(確率的生成)は決定論的な呼び出しよりも採点精度を改善しましたが、自己一貫性のアンサンブルサイズをj=1からj=7に増やしても有意な改善は見られませんでした。
- 「推論エフォート」を高めると採点精度は有意に上昇する一方で、その効果の大きさはモデルファミリーによって変わることが分かりました。
- 効率フロンティア分析により、精度とコストの観点で構成を比較し、推論を低くしたGemini 3.1 Pro Previewが最も正確である一方でコストも高いこと、推論なしのGPT-5.4 Nano/Miniが最も費用対効果が良いことが示されています。


