KnowledgeBerg：大規模言語モデルにおける体系的知識カバレッジと合成的推論の評価

arXiv cs.AI / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、現実の問題で見落とされがちな難しい能力として「有界な知識ユニバースの体系的なカバレッジ」と「そのユニバース上での合成的な集合ベース推論」を、LLM評価の枠組みとして提示している。
KnowledgeBergとして、権威あるソースに基づくユニバースを用いて再現性を確保した、10領域・17言語にまたがる1,183の列挙シードから作られた4,800問の多肢選択問題ベンチマークを導入している。
代表的なオープンソースLLMの実験では、ユニバース列挙で低い性能（5.26–36.88 F1）に加え、知識に根ざした推論でも低い正答率（16.00–44.19）が示される。
失敗は「完全性（知識の欠落）」「認識（必要条件の特定失敗）」「適用（推論手順の実行ミス）」の3段階に分類でき、言語やモデル規模を超えて同様のパターンが観察される。
推論時の計算量増加やリトリーバル拡張によって改善は見られるものの、依然として大きなギャップが残り、現行LLMは有界領域内でも構造化知識の整理と合成的推論の実行に課題があることが示唆される。

概要: 多くの実世界の問いは、見かけ上は単純に見えるにもかかわらず、暗黙に2つの能力を要求します: (i) 限定された知識の宇宙に対する体系的なカバーと、(ii) その宇宙に対する合成的な集合ベースの推論です。この現象を私たちは「氷山の一角」と呼びます。私たちは、この課題を2つの直交する次元によって形式化します: 知識幅、必要となる宇宙の基数、そして推論の深さ、合成的な集合操作の数です。私たちは、10の領域と17の言語にまたがる1,183の列挙シードから導出された、全4,800問の多肢選択式問題からなるベンチマーク「KnowledgeBerg」を導入します。宇宙は権威あるソースに基づいて構築されており、再現性を確実にします。代表的なオープンソースのLLMは、宇宙の列挙でF1が5.26-36.88にとどまり、知識に根ざした推論では正解率が16.00-44.19にとどまるなど、深刻な限界を示します。診断的な分析により、失敗は3つの段階に分解されます: 完全性の欠如、つまり知識の欠落; 気づきの欠如、つまり要求を特定できないこと; そして適用の誤り、つまり推論の実行が不正確であることです。このパターンは言語とモデル規模の両方にわたって持続します。テスト時の計算量や検索による補強は、測定可能な改善をもたらします――それぞれ最大で4.35点と3.78点――しかし、現在のLLMが限定された領域にわたって構造化された知識をどのように整理し、合成的な推論をどのように実行するかには、依然として大きなギャップが残ります。データセットは https://huggingface.co/datasets/2npc/KnowledgeBerg で入手できます