OptimusKG:現代的マルチモーダルグラフでの生物医学知識の統合
arXiv cs.AI / 2026/5/1
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- この論文では、構造化データと半構造化データの両方から得た知識を統合しつつ、スキーマレベルの制約とタイプ固有のメタデータを保持するマルチモーダル生物医学ラベル付きプロパティグラフ「OptimusKG」を提案する。
- OptimusKGはノードとエッジのトップレベルのスキーマを備え、分子・解剖・臨床・環境の各領域にまたがって、詳細なプロパティ、相互参照、プロヴェナンス(出所情報)を保持する。
- グラフは大規模で、190,531ノード(10エンティティタイプ)と21,813,816エッジ(26関係タイプ)を含み、さらに18のオントロジーと管理語彙から取得した150種類のプロパティキーにまたがって6,700万件超のプロパティインスタンスを持つ。
- 検証として、マルチモーダルな文献根拠確認エージェント(PaperQA3)を用い、サンプルしたエッジの70.0%が科学文献に支持されることを示し、一方でサンプルした誤エッジの83.4%は支持根拠が見つからなかった。
- データセットはApache Parquet形式で提供され、グラフベースの機械学習や大規模言語モデルによる知識に根差した検索、仮説生成などの生物医学発見用途を支える。




