概要: 大規模言語モデル(LLM)の評価は、人手による評価に代わるものとして自動評価ベンチマークが注目を集める中で、ますます重要になってきています。既存の研究はモデルのランキングを近似することに焦点を当ててきましたが、そのようなベンチマークでは、特定のモデルの能力に関して、ユーザや開発者が包括的かつきめ細かな理解を得ることができません。このギャップを埋めるために、私たちは extbf{SCAN}(Structured Capability Assessment and Navigation)を提案します。これは、包括的かつきめ細かな評価を通じて、LLMの能力を詳細に特徴づけることを可能にする実用的な枠組みです。SCAN は4つの主要コンポーネントを組み込みます:(1)TaxBuilder:広範なクエリから能力を示すタグを抽出して、自動的に階層的な分類体系を構築する;(2)RealMix:各能力タグに対して十分な評価データが得られるようにする、クエリ合成およびフィルタリングの仕組み;(3)モデルの能力の効率的なナビゲーションと分析を促進する一連の可視化および分析ツール;(4)PC^2 ベース(Pre-Comparison-derived Criteria)の LLM-as-a-Judge アプローチで、従来の LLM-as-a-Judge 手法と比べて有意に高い精度を実現します。SCAN を用いて、主要な LLM 21種に対する包括的な評価を行います。GPT-OSS ファミリーに関する詳細な分析では、同一の能力カテゴリに属するサブ能力の範囲内でさえ、大きな性能のばらつきが見られます。この結果は、LLM の振る舞いを正確に理解するために、きめ細かな評価の重要性を示しています。プロジェクトのホームページおよびリソースは
\href{https://github.com/liudan193/SCAN}{https://github.com/liudan193/SCAN} にあります。
SCAN:LLMのための構造化された能力評価とナビゲーション
arXiv cs.CL / 2026/5/4
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文は、自動化されたLLM評価ベンチマークがしばしばモデルの順位推定にとどまり、特定モデルの能力差を詳細かつきめ細かく理解する情報を提供できないと主張している。
- SCAN(Structured Capability Assessment and Navigation)という実用的なフレームワークを提案し、4つの構成要素を通じてLLMの能力を包括的かつきめ細かく特徴付けできるとしている。
- TaxBuilderは大量のクエリから能力を示すタグを抽出して階層的なタクソノミーを自動構築し、RealMixは各タグに十分な評価データが行き渡るようにクエリを合成・フィルタリングする。
- PC²ベースの「Pre-Comparison-derived Criteria」によるLLM-as-a-Judgeは、従来のLLM-as-a-Judgeよりも評価精度が大幅に高いとされ、SCANは21の主流LLMに適用されている。
- GPT-OSSファミリーの分析では、同じ能力カテゴリ内のサブ能力でさえ大きな性能ばらつきが見られ、LLM挙動を正確に理解するにはきめ細かな評価が重要だと示している。



