要旨: 最先端のLLM出力において、CPUのみで動作するスコアリング・プリミティブを1トークンあたり2.6マイクロ秒で実行可能にし、既存のサンプリングベース検出器に比べて推定レイテンシが最大100,000\times(5桁)も低いという、注目すべき統計的な規則性を報告する。5つの独立ベンダからの6つの現行モデル、2種類の生成サイズ、5つの未使用(ホールドアウト)領域にまたがって、トークンの順位-頻度分布は同一の2パラメータ・マンドルブロランキング分布へ収束する。モデル×領域の36件の適合のうち34件でR^{2} = 0.94を上回り、36件のうち35件でAICによりジップ(Zipf)よりマンドルブロ(Mandelbrot)が支持される。共有されたファミリは、モデルを統計的な重複(複製)へと崩壊させない。適合したマンドルブロのパラメータは、モデル間で明確に分離されたままである。qにおけるクロスモデルのばらつき(1.63〜3.69)は、そのモデルごとのブートストラップ標準偏差(0.03〜0.10)を1桁以上上回り、数千トークンの出力につき数十標準偏差分の分離に相当する。ここから2つの機能が導かれる。第一に、統計モデル指紋(フィンガープリンティング)。ベンダ提供のLLMによって生成されたテキストは、暗号学的ウォーターマークやモデル内部へのアクセスなしに、その主張されたモデルファミリに対して検定でき、来歴の検証や、目に見えない(サイレントな)置換の監査を支援する。第二に、ブラックボックス出力評価のためのモデル非依存の参照分布である。そこから、利用可能な場合はモデルの対数確率と組み合わせる単一パスのスコアリング・プリミティブを導出し、クローズドAPIで利用可能な順位(ランク)のみのモードへ劣化(フォールバック)できる。FRANK、TruthfulQA、HaluEvalに関するパイロット結果は、このプリミティブがどこで役立つか(語彙上の異常、不支持の実体)と、構造的に役立たないか(領域に適した語彙における推論エラー)を対応づける。私たちはこのプリミティブを、複合的な評価スタックにおける一次トリアージ層として位置づけるのであり、サンプリングベースやソース条件付きの検証器の代替ではない。
LLM出力の驚くべき普遍性:リアルタイム検証プリミティブ
arXiv cs.CL / 2026/4/29
💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この論文は、複数ベンダーの最先端LLM、モデル規模、未使用ドメインにまたがって、トークンの順位-頻度分布が共通の2パラメータのマンデルブロ順位分布に収束するという統計的規則性を見いだした。
- CPUのみで動作し、トークンあたり約2.6マイクロ秒で動く高速な検証/スコアリング・プリミティブを報告しており、既存のサンプリングベース検出器に比べて最大で5桁(桁違い)高速だとされる。
- この共通分布を用いて、テキストが「主張された」LLMファミリーに属するかを、暗号ウォーターマークやモデル内部へのアクセスなしに統計的にフィンガープリントして検証できると提案している。
- さらに、ブラックボックスでの出力評価に使えるモデル非依存の参照分布も提示し、クローズドAPI向けの「順位のみ」モードを含め、モデルの対数確率がある場合はそれとも組み合わせられる。
- パイロット評価(FRANK、TruthfulQA、HaluEvalなど)では、語彙上の異常や未支持の実体の検出に有効な一方、適切な語彙を要する領域での推論エラーには構造的に難しいことを示している。




