OptimusKG:現代的マルチモーダルグラフでの生物医学知識の統合

arXiv cs.AI / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • この論文では、構造化データと半構造化データの両方から得た知識を統合しつつ、スキーマレベルの制約とタイプ固有のメタデータを保持するマルチモーダル生物医学ラベル付きプロパティグラフ「OptimusKG」を提案する。
  • OptimusKGはノードとエッジのトップレベルのスキーマを備え、分子・解剖・臨床・環境の各領域にまたがって、詳細なプロパティ、相互参照、プロヴェナンス(出所情報)を保持する。
  • グラフは大規模で、190,531ノード(10エンティティタイプ)と21,813,816エッジ(26関係タイプ)を含み、さらに18のオントロジーと管理語彙から取得した150種類のプロパティキーにまたがって6,700万件超のプロパティインスタンスを持つ。
  • 検証として、マルチモーダルな文献根拠確認エージェント(PaperQA3)を用い、サンプルしたエッジの70.0%が科学文献に支持されることを示し、一方でサンプルした誤エッジの83.4%は支持根拠が見つからなかった。
  • データセットはApache Parquet形式で提供され、グラフベースの機械学習や大規模言語モデルによる知識に根差した検索、仮説生成などの生物医学発見用途を支える。

Abstract

生物医学知識グラフ(KG)は生命科学で広く利用されているが、多くは非構造化文書から作られているためスキーマレベルの制約を欠いている。一方、構造化されたリソースから組み立てられたグラフは、統一された表現へと調和させることが難しい。そこで本研究では、分子、解剖、臨床、環境の各領域にわたって事実に基づく、型(タイプ)固有のメタデータを保持するために、構造化および半構造化のリソースから構築したマルチモーダル生物医学ラベル付きプロパティグラフ(LPG)である OptimusKG を提案する。OptimusKG には、10のエンティティタイプにまたがる190,531ノード、26の関係タイプにまたがる21,813,816エッジ、ならびに18のオントロジーおよび管理された語彙から導出された150種類の固有プロパティキーにわたって110,276,843個の値を符号化する67,249,863のプロパティインスタンスが含まれる。このグラフは、ノードとエッジに対するトップレベルのスキーマを強制し、分子、解剖、臨床、環境の各領域にわたって、粒度の細かい型固有のプロパティ、相互参照(クロスリファレンス)、およびプロヴェナンスを保持する。我々は、マルチモーダルエージェント PaperQA3 を用いて、グラフ関係が科学文献からのエビデンスによって支持されているかどうかを評価することで、OptimusKG の妥当性を検証した。PaperQA3 は、サンプルしたエッジの70.0%について支持エビデンスを特定したのに対し、サンプルした偽エッジの83.4%では支持エビデンスが一切見つからなかった。文献による支持がないエッジは、実験的および機能ゲノミクスのリソースから導出された関連に集中しており、OptimusKG が科学文献における統合(シンセシス)の前に存在し得る生物医学知識を捉えていることを示唆する。OptimusKG は Apache Parquet ファイルとして配布されており、グラフベースの機械学習、ラージ言語モデルによる知識に根ざした検索、仮説生成などの生物医学の発見ユースケースのための標準化されたリソースを提供する。