Spark-LLM-Eval:統計的に厳密な大規模言語モデル評価のための分散フレームワーク
arXiv cs.CL / 2026/4/1
💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- Spark-LLM-Eval は、大規模言語モデルの評価をデータ並列なワークロードとして扱う、分散型で Spark ネイティブなフレームワークを導入し、数十万〜数百万サンプルの評価データセットに対応します。
- このフレームワークは、メトリクスにブートストラップの信頼区間を付与し、モデル比較には適切な有意性検定(例:対応のある t 検定、McNemar の検定、Wilcoxon の符号付順位検定)を用いることで、統計的な厳密性を設計思想としています。
- コンテンツアドレス指定の応答キャッシュを Delta Lake に保存することで、メトリクス定義を変更してもモデル呼び出しを再実行することなく評価の反復速度を高め、推論コストを削減します。
- 本論文では、システムのアーキテクチャと手法を説明し、クラスター規模に対して線形スケーリングするベンチマーク結果を報告しています。
- 評価フレームワークおよび関連コードはオープンソースとして公開されており、より幅広い採用と再現可能な大規模 LLM ベンチマークを促進します。




