大規模言語モデルはサイコロが下手:LLMは統計分布からのランダム数生成に苦戦

arXiv cs.AI / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本研究は、指定した確率分布からLLMがどれだけ忠実にサンプリングできるかを監査し、11モデル×15分布で評価した。
  • 強いプロトコルの非対称性が見られ、1回の応答内でN=1000個をまとめて生成するバッチ生成では妥当性が限定的(中央値の合格率7%)にとどまる一方、独立した無状態リクエストではほとんど破綻し、11モデル中10モデルがいずれの分布でも合格しなかった。
  • サンプリングの忠実度は分布の複雑さと、サンプリング数Nを増やすほど単調に悪化し、性能低下が段階的に進むことが示された。
  • 下流の実アプリへの波及として、複数選択式の問題生成で解答位置の一様性制約を守れないことや、属性制約付きテキストから画像生成で人口統計ターゲットを体系的に逸脱することが明らかになった。
  • 論文は、現行のLLMには機能的な内部確率サンプラーが欠けているため、統計的保証が必要な用途では外部ツールや手法に頼るべきだと結論づけている。

要旨: 大規模言語モデル(LLM)がチャット・インターフェースから、一般知能に近づく確率的パイプラインやシステムの不可欠な構成要素へと移行するにつれて、指定された確率分布から忠実にサンプリングできる能力は、理論上の好奇心ではなく、機能上の要求となってきています。本稿では、最先端のLLMにおけるネイティブな確率的サンプリングを、初めて大規模かつ統計的に裏付けられた形で監査します。15の分布に対して11のモデルをベンチマークし、その評価を行います。失敗モードを切り分けるために、デュアル・プロトコル設計を採用します。すなわち、Batch Generationは、1つの応答の中でモデルが N{=}1000 個のサンプルを生成する方式であり、Independent Requestsは、状態を持たない N{=}1000 回の呼び出しから成る方式です。観測されたのは、プロトコル間の鋭い非対称性です。バッチ生成では統計的妥当性がわずかにしか達成されず、中央値の合格率は7%にとどまります。一方、独立リクエストではほぼ完全に崩壊しており、11モデル中10モデルが、いずれの分布に対しても1つも合格しません。この非対称性に加えて、サンプリングの忠実度が分布の複雑さとともに単調に低下し、サンプリングの地平 N が増大するほど悪化することも明らかにします。最後に、これらの失敗が、下流の実世界のアプリケーション課題へ伝播することで、体系的なバイアスが生じることを示します。すなわち、複数選択式質問生成(Multiple Choice Question generation)においてモデルは一様な解答位置に関する制約を強制できず、また、属性制約付きテキストから画像へのプロンプト合成(attribute-constrained text-to-image prompt synthesis)では、人口統計(デモグラフィック)の目標を体系的に逸脱します。これらの知見は、現行のLLMが機能する内部サンプラーを備えていないことを示唆しており、統計的保証を必要とするアプリケーションには外部ツールが不可欠であることを意味します。