平均を超えて:LLM評価におけるWithin-Modelの信頼できる変化検出

arXiv cs.CL / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、臨床心理学の信頼できる変化指数(RCI)を、LLM評価のためのwithin-model・アイテム単位比較へ応用し、MMLU-Proの2,000件の問題で検証した。
  • モデルのバージョン間比較(Llama 3→3.1、Qwen 2.5→3)では、床/天井効果を除いていない場合に「信頼できる変化がない」アイテムが多い一方、分析可能な領域では改善と悪化の双方が観測される。
  • 分析可能なアイテムでは、改善と悪化の比率がともに大きな効果量を伴い(Llama:34%が改善・28%が悪化、Qwen:47%が改善・39%が悪化)、集計精度の増減がアイテム単位の相反する変化の“純残差”として生じることを示している。
  • 変化は問題の難易度により非対称で、低精度のアイテムは改善しやすく高精度のアイテムは悪化しやすいほか、領域分解ではモデルファミリー特有の逆転も明らかになった(例:Llamaは物理で低下、Qwenは法学で低下)。
  • さらに、貪欲な単発評価は信頼できる変化の42%を見落とし、変化のないアイテムで25%を誤検知するため、集計精度に加えてchurn率も併記すべきだと提案している。

概要: 信頼できる変化指数(Reliable Change Index; RCI; Jacobson and Truax, 1991)を、臨床心理学からアイテム単位のLLMバージョン比較へ適用し、2,000のMMLU-Proアイテム(T=0.7でK=10サンプル)で検証した。同一ファミリー内の2つのペアをテストした:Llama 3から3.1(+1.6ポイント)と、Qwen 2.5から3(+2.8ポイント)。完全なベンチマークでは、ほとんどのアイテムが信頼できる変化を示さなかった(79%および72%)。しかし、半数以上のアイテムがフロア/セーリングに該当した。分析可能なアイテムに限ると、変化は双方向で、大きな効果量が観察された:Llamaでは34%が改善し28%が悪化した。Qwenでは47%が改善し39%が悪化した(中央値|delta p| = 0.50および0.90)。チャーンは難易度によって非対称だった:低精度のアイテムは改善し、高精度のアイテムは悪化した。ドメイン・レベルの分解により、ファミリー固有の反転が明らかになった:Llamaは物理を失い、Qwenは法律を失った。貪欲な単発評価では、確実に変化したアイテムの42%を見落とし、変化のないアイテムの25%を誤ってフラグ付けした。集計された精度向上は、相反するアイテム単位の移動の正味の残差である。集計精度と併せてチャーン率も報告することを推奨する。