分子計測値の予測のためのグラフ理論モデル

arXiv cs.LG / 2026/4/23

📰 ニュース

共有:

要点

本研究は、外部活性 D(G) と内部活性 ζ(G) に基づく古典的なグラフ理論ベースラインモデルを評価し、大規模で化学的に多様なデータセットへの汎化が限定的であることを示しています。
MoleculeNet の5つのベンチマーク課題（BACE、LogP合成/実験、ESOL、SAMPL の水和自由エネルギー）において、ベースラインは平均 R² が0.24にとどまり、フラボノイド小規模データセットを超える転移性の低さが確認されました。
性能向上のため、Ridge 正則化、追加のグラフ記述子、物理化学的特徴量、アンサンブル（Gradient Boosting）、Lasso による特徴量選択、ならびに位相的指標と Morgan フィンガープリントのハイブリッド化を段階的に組み込む体系的な強化フレームワークを提案しています。
強化した古典モデルは予測精度を大幅に改善し、平均ベスト R² を0.79まで引き上げました（改善幅は165%〜274%で、統計的に有意：p < 0.001）。
この手法は実用性も高く、GPU不要で5分未満で学習でき、オープンソースのみで動作するため、計算資源の限られた環境でも研究で利用しやすく、GNN系モデルとも同等以上の競争力が示されています。

Abstract

グラフ理論に基づくアプローチは、分子特性予測において単純さ、解釈可能性、低い計算コストを提供する。これらのうち、外部活性

D(G)

指数と内部活性

azeta(G)

指数に基づくMukwembiとNyabadzaの提案モデルは、小規模なフラボノイドデータセットで強力な結果を達成した。しかし、より大規模で化学的に多様なデータセットへの汎化能力は検証されていない。本研究では、MoleculeNetからの5つのベンチマークデータセットに対して、基礎となる

D(G)

\zeta(G)

多項式モデルを評価する。対象は、生物活性（BACE、1,513分子）、脂溶性（LogP合成、14,610分子；LogP実験、753分子）、水溶性（ESOL、1,128分子）、および水和自由エネルギー（SAMPL、642分子）である。基礎モデルは平均

R^2 = 0.24

を達成しており、転移可能性が限定的であることが確認される。これに対処するため、系統的な強化（enhancement）フレームワークを提案し、Ridge正則化の導入、追加のグラフ記述子、物理化学的性質、Gradient Boostingによるアンサンブル学習、Lassoによる特徴選択、さらにトポロジカル指標とMorganフィンガープリントを組み合わせたハイブリッド手法を段階的に取り入れる。強化されたモデルでは平均の最良

R^2

が 0.79 まで向上し、個々の改善幅は 165\% から 274\% の範囲に及ぶ。すべての改善は統計的に有意であり（

p < 0.001

）、強化モデルは同一の実験条件の下で、Graph Convolutional Network（GNN）との直接比較においても、5つのデータセットすべてで深層学習に匹敵する、あるいは上回る性能を示す。さらに、Djagbaらによる最近のGNN+PGMハイブリッドとの比較によっても競争力が裏付けられ、強化モデルは2つのデータセットで最良結果を達成し、1つでは同率となる。提案する全フレームワークはGPUを必要とせず、5分未満で学習でき、オープンソースのツールのみを用いるため、計算資源が限られた環境で研究する者にも利用可能である。

分子計測値の予測のためのグラフ理論モデル

要点

Abstract

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer