文化遺産テキストからの知識グラフ生成:LLMとオントロジー工学を組み合わせて学術的議論を支える

arXiv cs.AI / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、大規模言語モデル(LLMs)を用いて文化遺産テキストをRDF知識グラフへ変換するための5段階の手法ATR4CH(注釈スキーマ、パイプライン設計、オントロジー統合、洗練、評価)を提案する。
  • 真偽(真正性)評価に関する議論を対象としたケーススタディで本アプローチを検証し、この手法が、個体(エンティティ)やメタデータだけでなく、仮説、証拠、さらに談話レベルの表現も捉えられることを示す。
  • 3つのLLMを順次処理するパイプライン(Claude Sonnet 3.7、Llama 3.3 70B、GPT-4o-mini)を用いた実験では、メタデータ抽出と証拠抽出で高い性能を達成する一方、個体認識や仮説/談話に関わるタスクでは、より中程度のスコアにとどまる。
  • 著者らは、小規模モデルでも競争力のある性能を発揮できることを見出しており、ATR4CHは資源の状況が異なる機関に対して、より費用対効果の高い形で導入できる可能性があるとしている。
  • 重要な限界として、結果はWikipediaのみを入力として示されており、生成されたKGは学術的な信頼性のために、後処理の段階で人手による監督がなお必要である。

Abstract

文化遺産のテキストには、豊富な知識が含まれている一方で、非構造化された言説を構造化された知識グラフ(KG)へ変換することが難しいため、体系的にクエリすることは困難です。本論文では、文化遺産文書からの大規模言語モデル(LLM)ベースの知識抽出のための、体系的な5ステップ手法であるATR4CH(Adaptive Text-to-RDF for Cultural Heritage)を提案します。この手法を「真正性評価」に関する議論を対象としたケーススタディにより検証します。手法 - ATR4CHは、注釈モデル、オントロジーの枠組み、そしてLLMベースの抽出を、反復的な開発によって統合します。具体的には、基礎的な分析、注釈スキーマの開発、パイプライン・アーキテクチャ、統合の洗練、総合的な評価の5段階です。Wikipediaにある争点のある項目(文書、遺物...)に関する記事を用いてこのアプローチを示し、3つのLLM(Claude Sonnet 3.7、Llama 3.3 70B、GPT-4o-mini)による逐次パイプラインを実装します。知見 - この手法は、複雑な文化遺産の知識を首尾よく抽出します。メタデータ抽出では0.96-0.99のF1、エンティティ認識では0.7-0.8のF1、仮説抽出では0.65-0.75のF1、証拠抽出では0.95-0.97、そして談話表現では0.62のG-EVALを達成しました。小型モデルも競争力のある性能を示し、費用対効果の高い導入を可能にします。独自性 - 文化遺産オントロジーとLLMベース抽出を協調させるための最初の体系的な手法です。ATR4CHは、文化遺産(CH)分野および機関のリソースにわたって適応可能な、再現可能な枠組みを提供します。研究上の限界 - 生成されるKGはWikipediaの記事に限定されます。結果は有望ですが、後処理の段階で人手による監督が必要です。実務上の示唆 - ATR4CHにより、文化遺産機関はテキストの知識を体系的にクエリ可能なKGへ変換でき、メタデータの自動的な強化や知識発見を支援します。