広告

テキストコレクションからの知識グラフ構築手法:開発と応用

arXiv cs.AI / 2026/3/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ニュース、ソーシャルメディア、学術出版物、デジタルヘルス記録など多様な領域にまたがって急速に増加する非構造テキストのコレクションから、スケーラブルで柔軟な知識グラフを構築する方法を扱う。
  • テキストデータの価値を引き出すには、NLP/ML/生成AIによる情報抽出と、セマンティック・ウェブの技術を組み合わせて、意味的に透明で説明可能かつ相互運用可能な知識グラフを生成する必要があると主張する。
  • 本研究では、NLP、機械学習、GenAIのアプローチを用いたカスタマイズ済みのアルゴリズムを評価・開発し、ベンチマーク結果と、再利用可能なデータ資源としての知識グラフを作成する。
  • さらに、3つの応用事例を示す。すなわち、グローバルなデジタル変革コンテンツにおける言説の対応付け、AECO分野の研究出版物の動向分析、そしてEHR(電子健康記録)と患者が作成した薬剤レビューから生物医学的エンティティの因果関係グラフを生成する、である。

要旨: 社会のほぼあらゆる分野で、生成・公開される非構造化テキストデータの量が劇的に増加しています。オンライン上のニュースやソーシャルメディアでの相互作用から、オープンアクセスの学術的コミュニケーション、さらにデジタル健康記録やオンラインの薬剤レビューという形の観測データに至るまで、その範囲は広がっています。このような多様な領域全体にわたるデータの量と種類は、いくつもの応用シナリオに対して、前例のない機会と差し迫った課題の両方を生み出してきました。しかし、豊かな意味論的知識を抽出するには、テキストのジャンルやスキーマ仕様に適応可能な、スケーラブルで柔軟な自動手法の導入が必要です。さらに、これらのデータの本来の可能性を最大限に引き出すには、情報抽出手法をセマンティック・ウェブ技術と結び付け、完全な機能を備えたナレッジグラフを構築することで初めて実現します。これらのナレッジグラフは、意味論的に透明で、設計により説明可能であり、相互運用可能である必要があります。本論文では、セマンティック・ウェブのベストプラクティスによって支えられた、自然言語処理、機械学習、生成AIの手法の適用を実験し、大規模なテキスト・コーパスからナレッジグラフを自動構築することを、3つのユースケースで検証します。すなわち、グローバルなニュースおよびソーシャルメディア・プラットフォームにおけるデジタル変革の言説の分析。出版物の大規模コーパスに基づく、建築・土木・建設・運用(Architecture, Engineering, Construction and Operations)領域における近年の研究のマッピングとトレンド分析。電子健康記録と患者が執筆した薬剤レビューから、生命医学的エンティティの因果関係グラフを生成することです。本論文が研究コミュニティに提供する貢献は、ベンチマーク評価結果、カスタマイズされたアルゴリズムの設計、そしてナレッジグラフという形でのデータ資源の作成にあります。加えて、それらの上に構築されたデータ分析結果も含まれます。

広告