文化遺産テキストからの知識グラフ生成:LLMとオントロジー工学を組み合わせて学術的議論を支える
arXiv cs.AI / 2026/4/10
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模言語モデル(LLMs)を用いて文化遺産テキストをRDF知識グラフへ変換するための5段階の手法ATR4CH(注釈スキーマ、パイプライン設計、オントロジー統合、洗練、評価)を提案する。
- 真偽(真正性)評価に関する議論を対象としたケーススタディで本アプローチを検証し、この手法が、個体(エンティティ)やメタデータだけでなく、仮説、証拠、さらに談話レベルの表現も捉えられることを示す。
- 3つのLLMを順次処理するパイプライン(Claude Sonnet 3.7、Llama 3.3 70B、GPT-4o-mini)を用いた実験では、メタデータ抽出と証拠抽出で高い性能を達成する一方、個体認識や仮説/談話に関わるタスクでは、より中程度のスコアにとどまる。
- 著者らは、小規模モデルでも競争力のある性能を発揮できることを見出しており、ATR4CHは資源の状況が異なる機関に対して、より費用対効果の高い形で導入できる可能性があるとしている。
- 重要な限界として、結果はWikipediaのみを入力として示されており、生成されたKGは学術的な信頼性のために、後処理の段階で人手による監督がなお必要である。



