LLMpedia:LLMの百科事典的知識を大規模に具体化するための透明性の高いフレームワーク

arXiv cs.CL / 2026/3/26

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LLMpediaは、検索を一切用いず、純粋にパラメトリック・メモリのみからLLMの百科事典的知識を大規模に具体化するフレームワークとして提示されており、3つのモデル・ファミリにわたって約100万本の記事を生成する。
  • 著者らは、ベンチマークのスコア(例:MMLU型の事実性の飽和が90%超)だけでは不完全な見方になると主張し、Wikipediaでカバーされる対象についての検証可能な真率がより低いことを報告している(gpt-5-miniで74.7%)。さらに、キュレーションされたWeb証拠によって検証されたフロンティア対象では、その真率はさらに低くなる(63.2%)。
  • 本研究は、可用性バイアスや主題カバレッジの制約といった評価上の限界を強調している。Wikipediaが表出した対象のわずか61%しかカバーしていないこと、また3つのモデル・ファミリでの主題選定の重複率がわずか7.3%であることが指摘されている。
  • Grokipediaに着想を得た「capture-trap」ベンチマークを用いることで、LLMpediaは事実性を大幅に高めつつ、Wikipediaとのテキスト類似度はおおよそ半分程度にとどめることを示している。
  • 本研究は透明性を重視し、プロンプト、成果物、評価の判定結果を公開することでそれを実現している。著者らは、これを「完全にオープンなパラメトリック百科事典」として初めてのものだと位置づけており、データ/コード/インターフェースはllmpedia.netで利用可能としている。

要旨: MMLU のようなベンチマークは、主要な言語モデルが事実性の飽和に近づき、90
% を超えるスコアを示すことを示唆している。私たちは、この描像が不完全であることを示す。\emph{LLMpedia} は、検索を行わずに、3つのモデルファミリーにわたって、パラメトリックメモリのみから百科事典的な記事を完全に生成し、{\sim}1M 件の記事を作り出す。gpt-5-mini では、Wikipedia がカバーする対象に関して検証可能な真率は 74.7\% にすぎず、ベンチマークに基づく描像より 15 パーセントポイント以上低い。これは、固定された設問による評価における利用可能性バイアスと整合的である。Wikipedia の範囲を超えると、厳選されたWeb 証拠を通じてのみ検証可能な最先端の主題では、真率はさらに 63.2\% まで下がる。Wikipedia がカバーするのは、表出した主題の 61\% にすぎず、3つのモデルファミリーは主題選択において重なりがわずか 7.3\% である。Grokipedia の先行分析に着想を得たキャプチャートラップ・ベンチマークでは、LLMpedia は、Wikipedia とのテキスト類似度がおよそ半分であるにもかかわらず、実質的により高い事実性を達成する。Grokipedia とは異なり、すべてのプロンプト、アーティファクト、評価の評決は公開されており、LLMpedia は、完全にオープンなパラメトリック百科事典として初めてである。これは、事実性評価と知識の具現化(マテリアライゼーション)を橋渡しするものである。すべてのデータ、コード、そして閲覧可能なインターフェースは https://llmpedia.net にある。