分子計測値の予測のためのグラフ理論モデル

arXiv cs.LG / 2026/4/23

📰 ニュース

要点

  • 本研究は、外部活性 D(G) と内部活性 ζ(G) に基づく古典的なグラフ理論ベースラインモデルを評価し、大規模で化学的に多様なデータセットへの汎化が限定的であることを示しています。
  • MoleculeNet の5つのベンチマーク課題(BACE、LogP合成/実験、ESOL、SAMPL の水和自由エネルギー)において、ベースラインは平均 R² が0.24にとどまり、フラボノイド小規模データセットを超える転移性の低さが確認されました。
  • 性能向上のため、Ridge 正則化、追加のグラフ記述子、物理化学的特徴量、アンサンブル(Gradient Boosting)、Lasso による特徴量選択、ならびに位相的指標と Morgan フィンガープリントのハイブリッド化を段階的に組み込む体系的な強化フレームワークを提案しています。
  • 強化した古典モデルは予測精度を大幅に改善し、平均ベスト R² を0.79まで引き上げました(改善幅は165%〜274%で、統計的に有意:p < 0.001)。
  • この手法は実用性も高く、GPU不要で5分未満で学習でき、オープンソースのみで動作するため、計算資源の限られた環境でも研究で利用しやすく、GNN系モデルとも同等以上の競争力が示されています。

Abstract

グラフ理論に基づくアプローチは、分子特性予測において単純さ、解釈可能性、低い計算コストを提供する。これらのうち、外部活性 D(G) 指数と内部活性 azeta(G) 指数に基づくMukwembiとNyabadzaの提案モデルは、小規模なフラボノイドデータセットで強力な結果を達成した。しかし、より大規模で化学的に多様なデータセットへの汎化能力は検証されていない。本研究では、MoleculeNetからの5つのベンチマークデータセットに対して、基礎となる D(G)-\zeta(G) 多項式モデルを評価する。対象は、生物活性(BACE、1,513分子)、脂溶性(LogP合成、14,610分子;LogP実験、753分子)、水溶性(ESOL、1,128分子)、および水和自由エネルギー(SAMPL、642分子)である。基礎モデルは平均 R^2 = 0.24 を達成しており、転移可能性が限定的であることが確認される。これに対処するため、系統的な強化(enhancement)フレームワークを提案し、Ridge正則化の導入、追加のグラフ記述子、物理化学的性質、Gradient Boostingによるアンサンブル学習、Lassoによる特徴選択、さらにトポロジカル指標とMorganフィンガープリントを組み合わせたハイブリッド手法を段階的に取り入れる。強化されたモデルでは平均の最良 R^2 が 0.79 まで向上し、個々の改善幅は 165\% から 274\% の範囲に及ぶ。すべての改善は統計的に有意であり(p < 0.001)、強化モデルは同一の実験条件の下で、Graph Convolutional Network(GNN)との直接比較においても、5つのデータセットすべてで深層学習に匹敵する、あるいは上回る性能を示す。さらに、Djagbaらによる最近のGNN+PGMハイブリッドとの比較によっても競争力が裏付けられ、強化モデルは2つのデータセットで最良結果を達成し、1つでは同率となる。提案する全フレームワークはGPUを必要とせず、5分未満で学習でき、オープンソースのツールのみを用いるため、計算資源が限られた環境で研究する者にも利用可能である。