Spark-LLM-Eval：統計的に厳密な大規模言語モデル評価のための分散フレームワーク

arXiv cs.CL / 2026/4/1

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

Spark-LLM-Eval は、大規模言語モデルの評価をデータ並列なワークロードとして扱う、分散型で Spark ネイティブなフレームワークを導入し、数十万〜数百万サンプルの評価データセットに対応します。
このフレームワークは、メトリクスにブートストラップの信頼区間を付与し、モデル比較には適切な有意性検定（例：対応のある t 検定、McNemar の検定、Wilcoxon の符号付順位検定）を用いることで、統計的な厳密性を設計思想としています。
コンテンツアドレス指定の応答キャッシュを Delta Lake に保存することで、メトリクス定義を変更してもモデル呼び出しを再実行することなく評価の反復速度を高め、推論コストを削減します。
本論文では、システムのアーキテクチャと手法を説明し、クラスター規模に対して線形スケーリングするベンチマーク結果を報告しています。
評価フレームワークおよび関連コードはオープンソースとして公開されており、より幅広い採用と再現可能な大規模 LLM ベンチマークを促進します。

Abstract

大規模言語モデルをスケールさせて評価することは、多くの組織にとって依然として実務上のボトルネックとなっています。既存の評価フレームワークは数千件の例に対してはうまく機能する一方で、データセットが数十万件、あるいは数百万件のサンプルに成長すると対応が難しくなります。この規模は、モデルの挙動を多様な領域にわたって評価する場合や、包括的な回帰テストを行う場合に一般的です。本稿では、Apache Spark上でネイティブに構築された分散評価フレームワークであるSpark-LLM-Evalを提示します。本システムは評価をデータ並列の問題として扱い、例を実行環境（executor）に分割し、適切な統計的手続きのもとで結果を集約します。生のスループットに加えて、私たちは統計的な厳密さを重視します。報告されるすべての指標にはブートストラップ信頼区間が含まれ、モデル同士の比較には、指標の種類に応じて適切な有意性検定（ペア t検定、McNemarの検定、またはWilcoxonの符号付順位検定）を伴います。さらに、本フレームワークは、LLM評価に固有のコスト問題にも対処します。内容アドレス指定可能な応答キャッシュを、Delta Lakeをベースに実装することで、推論を再実行せずにメトリクス定義を反復的に更新できます。システムのアーキテクチャ、統計的手法を説明し、クラスタサイズに対して線形にスケールすることを示すベンチマーク結果を報告します。本フレームワークおよびすべての評価コードはオープンソースとして利用可能です。