表現型(フェノタイプ)駆動かつエビデンスに統制された、人口データにおける知識グラフ強化と仮説発見のための枠組み

arXiv cs.AI / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文は、従来の知識グラフ(KG)構築手法が主に既知関係の回収に偏っている点を指摘し、表現型(フェノタイプ)駆動で仮説発見を重視する方向性を提案しています。
  • GNNによる表現型発見と、因果推論・確率的推論・LLMによる仮説生成/主張抽出を統合した、単一のパイプラインを提示しています。
  • KG強化は、候補となる主張を「関連性」「構造的妥当性」「新規性」で評価する多目的最適化として定式化され、パレート最適な選択により冗長で些細な知識の混入を避けます。
  • 異種の人口データでの実験により、解釈しやすい表現型の生成、文脈依存の因果構造の発見、データと科学的エビデンスに整合した高品質な主張の生成が示されています。
  • リトリーバル拡張(RAG)環境では、性能(Recall@5=0.98)の向上と幻覚率の低減(0.05)が確認され、LLM出力を根拠づける有効性が示されています。

概要: 現在の知識グラフ(KG)構築手法は確認的であり、文献に既知の関係の回復に焦点を当てる一方で、新規あるいは文脈依存のノードを特定することにはあまり重点が置かれていません。本論文では、表現型(フェノタイプ)主導かつ証拠に統制された枠組みを提案し、パラダイムを「構造化された仮説発見」と「制御されたKG拡張」へと転換します。このアプローチは、表現型発見のためのグラフニューラルネットワーク(GNN)、仮説生成と主張抽出のための因果推論・確率的推論・大規模言語モデル(LLM)を、統一されたパイプラインの中で統合します。枠組みは、データによって構造的に裏付けられていると同時に、文献上では十分に掘り下げられていない関係を優先します。KG拡張は多目的最適化問題として定式化され、候補となる主張は、関連性、構造妥当性、そして新規性の観点から共同で評価されます。パレート最適な選択により、確認と発見のバランスを取りつつ、些細あるいは冗長な知識の単なる包含を避ける、非支配な主張を同定できます。異種集団データセットに対する実験では、提案枠組みにより、より解釈可能な表現型が得られること、文脈依存の因果構造が明らかになること、さらにデータと科学的エビデンスの両方に整合する高品質な主張が生成されることが示されています。ルールベースおよびLLMのみのベースラインと比較して、本手法は妥当性・新規性・検証可能性・関連性の間で最良のトレードオフを達成します。検索拡張(retrieval-augmented)の設定では、幻覚率(0.05)を抑えつつ性能を大幅に改善し(Recall@5=0.98)、LLM出力を根拠付けるうえでの有効性が強調されます。