グラフ構造データのためのユニバーサル基盤モデルに向けて

arXiv cs.LG / 2026/4/9

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、バイオメディカル領域のグラフ解析には、言語/視覚の基盤モデルのように広く再利用可能な「基盤モデル」が不足していると主張している。
  • 次元や特徴量の設計、すなわちノードの同一性や特徴スキームに依存しない転移可能な表現を目指し、特徴に依存しない構造プロンプト(例:次数/中心性/コミュニティ、拡散ベースのシグネチャ)を用いるグラフ基盤モデルを提案する。
  • この手法は、構造プロンプトとメッセージパッシングのバックボーンを組み合わせ、異種グラフ上で一度だけ事前学習し、その後は新しいデータセットに対して最小限の適応でモデルを再利用する。
  • 複数のベンチマークでの実験により、強力な教師ありベースラインに匹敵、あるいは上回る性能が示され、保持されたグラフに対するゼロショットおよび少数ショットの汎化が改善する。
  • 特にSagePPIでは、事前学習済みモデルを教師あり微調整することで平均ROC-AUCが95.5%に到達し、最良の教師ありメッセージパッシング・ベースラインを21.8%上回る。

Abstract

グラフは生物医学研究における中心的な表現であり、分子相互作用ネットワーク、遺伝子制御回路、細胞間コミュニケーションのマップ、知識グラフを捉えます。その重要性にもかかわらず、言語や視覚を変革してきたモデルに匹敵する、グラフ解析のための広く再利用可能な基盤モデルは現時点で存在しません。既存のグラフニューラルネットワークは通常、単一のデータセットで学習され、そのデータセット固有のノード特徴、位相(トポロジー)、およびラベル空間に特化した表現を学習します。これにより、ドメイン間での移行能力が制限されます。この一般化の欠如は、生物学や医学において特に深刻です。なぜなら、ネットワークはコホート、アッセイ、機関の間で大きく異なるためです。ここでは、特定のノード同一性や特徴の取り決めに依存しない、転用可能な構造表現を学習するためのグラフ基盤モデルを提案します。我々のアプローチは、次数統計、中心性指標、コミュニティ構造の指標、拡散ベースのシグネチャなどの特徴非依存なグラフ特性を活用し、それらを構造プロンプトとして符号化します。これらのプロンプトは、メッセージパッシングのバックボーンと統合され、さまざまなグラフを共有表現空間へ埋め込みます。このモデルは異種混在のグラフ上で一度だけ事前学習され、その後は最小限の適応で、未見のデータセットに再利用されます。複数のベンチマークにおいて、我々の事前学習済みモデルは強力な教師ありベースラインと一致、またはそれを上回り、さらに保持されたグラフに対してゼロショットおよび少数ショットの汎化性能が優れていることを示します。SagePPIベンチマークでは、事前学習済みバックボーンの教師あり微調整により、平均ROC-AUCが95.5%となり、最高の教師ありメッセージパッシングベースラインに対して21.8%の向上を達成します。提案手法は、このようにして、生物医学およびネットワークサイエンスの応用におけるグラフ構造データ向けの、再利用可能な基盤規模モデルへ向けた独自のアプローチを提供します。