要旨: 大規模な知識グラフを型付きプロパティグラフに整理するには、構造上の意思決定が必要です――どのエンティティをノードにするか、どのプロパティをエッジにするか、そしてどのスキーマがこれらの選択を統治するか。既存のアプローチでは、これらの意思決定がパイプラインコードに埋め込まれていたり、関係が場当たり的に抽出されたりするため、スキーマがその構築プロセスと強く結び付いてしまい、下流のオントロジー(体系)レベルのタスクで再利用しにくくなっています。私たちは、グラフ構築の単なる副産物としてではなく、オントロジー分析、エンティティの識別(曖昧さ解消)、ドメインのカスタマイズ、LLM(大規模言語モデル)によるガイド付き抽出のために、最初からスキーマを設計するオントロジー指向のアプローチを提示します。このアプローチの中核となる仕組みは、固有関係ルーティング(intrinsic-relational routing)であり、すべてのプロパティを「固有(intrinsic)」または「関係(relational)」のいずれかに分類し、それを対応するスキーマモジュールへルーティングします。このルーティングにより、ストレージのバックエンドをまたいで移植可能であり、かつ独立して再利用できる宣言的なスキーマが生成されます。
このアプローチを2026年1月のWikidataダンプに適用します。ルールベースのクレンジング段階によって、ダンプ全体から34.6Mエンティティのコア集合を特定し、その後、固有関係ルーティングを反復的に適用して、各プロパティを8カテゴリの下に整理された94モジュールのいずれかへ割り当てます。ツール支援付きLLMサポートと人手によるレビューにより、スキーマは分類されたエンティティに対するカテゴリカバレッジ93.3%およびモジュール割り当て98.0%を達成します。このスキーマをエクスポートすると、38種類の関係タイプにまたがり、34.0Mノードと61.2Mエッジを持つプロパティグラフが得られます。私たちは、構築パイプラインとは独立してスキーマを消費する5つの適用を通じて、オントロジー指向という主張を検証します。具体的には、オントロジー構造の分析、ベンチマーク注釈の監査、エンティティの識別、ドメインのカスタマイズ、LLMによるガイド付き抽出です。
OntoKG: 内在的・関係的ルーティングによる、オントロジー指向の知識グラフ構築
arXiv cs.AI / 2026/4/6
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、スキーマ設計をパイプラインコードの副産物ではなく、最初から再利用可能なプロダクトとして扱うオントロジー指向の知識グラフ構築手法 OntoKG を提案する。
- 主要な技術である intrinsic-relational routing(内在的・関係的ルーティング)は、各プロパティを内在的(intrinsic)または関係的(relational)として分類し、適切なスキーマ・モジュールへルーティングすることで、宣言的でバックエンドに依存しないスキーマを生成する。
- このアプローチは、2026年1月の Wikidata ダンプに対して実証されており、ルールベースのクリーニングにより 3460万エンティティからなるコア集合を導出したのち、8カテゴリにまたがる94モジュールへとプロパティを反復的にルーティングする。
- ツール支援付きLLMの支援と人手によるレビューにより、得られたスキーマはカテゴリ網羅率 93.3%、モジュール割当精度 98.0% を達成したと報告されており、エクスポートされたグラフには38種類の関係タイプにまたがる 3400万ノードと 6120万エッジが含まれる。
- 著者らは、エクスポートされたスキーマを元の構築パイプラインに依存せずに5つの下流タスクへ適用することで再利用性を検証しており、オントロジー分析、監査、曖昧性解消、ドメインのカスタマイズ、LLM誘導の抽出が含まれる。




