LLM評価におけるすべてのノイズを測定する

arXiv stat.ML / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLM実験において「信号」と「ノイズ」を分離するには、評価設定におけるLLM固有の「ノイズ」挙動に適応した統計手法が必要だと主張する。
LLMの評価における3つのノイズ成分を定義し測定する：予測ノイズ（同一の質問に対して生成された異なる回答のばらつき）、データノイズ（サンプリングによって異なる質問から生じるばらつき）、およびそれらを全分散の法則（law of total variance）によって合算した総ノイズ。
「all-pairs paired（全ペアのペア評価）」手法を導入する。これは、モデルの全ペアに対してペア比較を実行し、多数の評価と設定にまたがる数百万件の質問レベルの予測を用いてノイズ成分を分解する。
結果として、各評価には固有で高度に予測可能な総ノイズ水準があること、また、ペア予測ノイズは通常ペアデータノイズを上回ることが示される。これは、予測を平均化することで統計的検出力を実際に高められる可能性を示唆する。
すべてのノイズ成分を同時に測定することで、評価結果を文脈の中で解釈し、LLMの選定や比較におけるより妥当な経験的意思決定を支援する。

要旨: 信号と雑音の分離は、実験において中核となる。確立された統計手法をLLM評価に効果的に適用するには、その独自の雑音特性を考慮する必要がある。本研究では、3種類の雑音を明確に定義し、測定する。すなわち、(1) 与えられた質問に対して異なる答えを生成することによって生じる予測雑音、(2) 質問をサンプリングすることによって生じるデータ雑音、(3) 全体の分散の法則に従うそれらの合計の雑音である。相対比較を強調し、統計的パワーを高めるために、すべてのペアを用いたpaired method（オールペアード・ペア法）を提案する。これは、ペアごとの分析をすべてのLLMの組み合わせに適用し、多数の評価（eval）と設定にまたがって、何百万もの質問レベル予測に基づいてすべての雑音成分を測定することで、明確なパターンを明らかにする。まず、各評価は、すべてのモデルペアにわたって、その合計雑音レベルが特徴的であり、かつ非常に予測可能である。次に、ペアごとの予測雑音は通常、ペアごとのデータ雑音を上回る。これは、予測雑音を平均化によって低減すると、統計的パワーを大幅に高められることを意味する。すべての雑音を同時に測定することで、評価結果を文脈の中で評価でき、最良の分析を用いて妥当な経験的判断を下すための障壁を下げることができる。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

LLM評価におけるすべてのノイズを測定する

要点

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer