Abstract
クローズドソースのフロンティア・ラボはパラメータ数を開示せず、標準的な代替手段である推論の経済性(inference economics)は、モデルの外部にあるハードウェア、バッチング、サービングスタックの前提によって 2\times 以上の不確実性を伴います。私たちはより厳密な固有の上限を活用します。すなわち、F 個の事実を保存するには少なくとも F/(パラメータあたりのビット数) 重みが必要なので、「モデルが
emph{知っている}量」を測ることで、そのモデルが
emph{持っている}パラメータ数の下限を導けます。私たちは
\textbf{圧縮不可能な知識プローブ(Incompressible Knowledge Probes (IKPs))} を導入します。これは、難解さの7段階にまたがる 1{,}400 の事実ベースの質問からなるベンチマークであり、推論によって導出できず、またアーキテクチャの改良によって圧縮もされない知識を分離するために設計されています。
私たちは、89 の公開重みモデル(135M--1,600B)上で、IKP 精度からパラメータ数への対数線形写像を校正し(19 社のベンダーにまたがる)、R^2 = 0.917 を達成します。1 つ抜き交差検証により一般化が確認され(中央値の折り誤差 1.59\times、2\times 以内が 68.5%、3\times 以内が 87.6%)、確かな頑健性を示しています。Mixture-of-Experts モデルでは、総パラメータ数が知識を予測する力(R^2 = 0.79)が、能動(アクティブ)パラメータ数(R^2 = 0.51)よりもはるかに優れています。
私たちは 27 社のベンダーからの 188 モデルを評価し、主要なすべての専有フロンティア・モデルについて有効な知識容量を推定します。安全性チューニングが強いモデルでは、推定値は下限です。拒否(refusal)ポリシーによって「拒否されたが実は知っている」能力の数十パーセント分が隠され得るためです。
広く報告されている推論ベンチマークの飽和は、スケーリングの終わりを意味しません。手続き的能力は「Densing Law(ディンシングの法則)」の下で圧縮されますが、96 の時系列付き公開重みモデルにわたって IKP の時間係数は -0.0010/月(95\% CI [-0.0031, +0.0008])であり、ゼロと区別できません。また、p < 10^{-15} において Densing 予測である +0.0117/月を棄却します。事実(factual)能力は、世代間およびベンダー間で、パラメータに対して対数線形にスケールし続けます。