非圧縮知識プローブ:事実能力からブラックボックスLLMのパラメータ数を推定する

arXiv cs.LG / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、Incompressible Knowledge Probes(IKPs)という1,400問の事実ベンチマークを提案し、閉鎖型LLMがどれだけ事実を正確に知っているかから、パラメータ数の下限を推定しようとします。
  • IKPの精度とパラメータ数の対数線形の関係を、19ベンダーの89のオープンウェイトモデル(135M〜1,600Bパラメータ)で校正し、当てはまりの強さ(R²=0.917)と良好な交差検証の汎化(中央値の折差など)を示しました。
  • Mixture-of-Experts(MoE)モデルでは、総パラメータが「アクティブなパラメータ」よりも事実知識との相関が大きく、ルーティング時の計算量だけでなく全体の容量に敏感であることを示唆します。
  • さらに、27ベンダーの188モデルを分析して主要なプロプライエタリなフロンティアモデルの「有効な知識容量」を推定し、安全チューニングによる拒否応答が見積もりを保守的な下限にする可能性を指摘しています。
  • スケーリング飽和の主張に反して、事実能力はモデル世代やベンダーをまたいでパラメータ数と対数線形にスケールし続けることを示し、オープンウェイトモデルでIKPの時間係数もほぼゼロであると述べています。

Abstract

クローズドソースのフロンティア・ラボはパラメータ数を開示せず、標準的な代替手段である推論の経済性(inference economics)は、モデルの外部にあるハードウェア、バッチング、サービングスタックの前提によって 2\times 以上の不確実性を伴います。私たちはより厳密な固有の上限を活用します。すなわち、F 個の事実を保存するには少なくとも F/(パラメータあたりのビット数) 重みが必要なので、「モデルが emph{知っている}量」を測ることで、そのモデルが emph{持っている}パラメータ数の下限を導けます。私たちは \textbf{圧縮不可能な知識プローブ(Incompressible Knowledge Probes (IKPs))} を導入します。これは、難解さの7段階にまたがる 1{,}400 の事実ベースの質問からなるベンチマークであり、推論によって導出できず、またアーキテクチャの改良によって圧縮もされない知識を分離するために設計されています。 私たちは、89 の公開重みモデル(135M--1,600B)上で、IKP 精度からパラメータ数への対数線形写像を校正し(19 社のベンダーにまたがる)、R^2 = 0.917 を達成します。1 つ抜き交差検証により一般化が確認され(中央値の折り誤差 1.59\times2\times 以内が 68.5%、3\times 以内が 87.6%)、確かな頑健性を示しています。Mixture-of-Experts モデルでは、総パラメータ数が知識を予測する力(R^2 = 0.79)が、能動(アクティブ)パラメータ数(R^2 = 0.51)よりもはるかに優れています。 私たちは 27 社のベンダーからの 188 モデルを評価し、主要なすべての専有フロンティア・モデルについて有効な知識容量を推定します。安全性チューニングが強いモデルでは、推定値は下限です。拒否(refusal)ポリシーによって「拒否されたが実は知っている」能力の数十パーセント分が隠され得るためです。 広く報告されている推論ベンチマークの飽和は、スケーリングの終わりを意味しません。手続き的能力は「Densing Law(ディンシングの法則)」の下で圧縮されますが、96 の時系列付き公開重みモデルにわたって IKP の時間係数は -0.0010/月(95\% CI [-0.0031, +0.0008])であり、ゼロと区別できません。また、p < 10^{-15} において Densing 予測である +0.0117/月を棄却します。事実(factual)能力は、世代間およびベンダー間で、パラメータに対して対数線形にスケールし続けます。