分子表現としての高次元フィンガープリント(Hyper-Dimensional Fingerprints)

arXiv cs.LG / 2026/5/1

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、学習を必要とせず高次元ベクトルに対する代数的操作で分子表現を行う、決定論的な分子フィンガープリント「HDF」を提案している。
  • 複数の性質予測ベンチマークで、HDFは従来のハッシュ化フィンガープリントに対して概ね優れ、データセットやモデル間での一貫性も高い。
  • HDF埋め込みは、標準的なMorganフィンガープリントよりも分子の構造的類似性をより忠実に保持し、低次元でもグラフ編集距離との相関が高い。
  • 64コンポーネント程度という少数次元でも、ハッシュベース手法が劣化する領域で、最近傍回帰が予測性を維持できることを示している。
  • ベイズ分子最適化では、HDFベースのサロゲートモデルが、Morganフィンガープリントがランダム探索と同程度にとどまる条件下でサンプル効率を大幅に改善することを実証している。

Abstract

計算機による分子表現は、仮想スクリーニング、性質予測、材料探索の基盤となります。従来のフィンガープリントは効率的かつ決定論的ですが、特に低次元では、ハッシュベースの圧縮によって構造情報を失います。グラフニューラルネットワークから学習された表現は、この表現力を回復しますが、タスク固有の学習と多大な計算資源を必要とします。ここでは、メッセージパッシング型ニューラルネットワークによる学習変換を、高次元ベクトル上の代数演算に置き換えるハイパーディメンショナル・フィンガープリント(HDF)を導入します。これにより、学習を一切行うことなく決定論的な分子表現が得られます。多様な性質予測ベンチマークにおいて、HDFは大多数のタスクで従来のフィンガープリントを上回り、さらにデータセットやモデル間での一貫性が高いことが示されます。重要なのは、HDF埋め込みが分子の類似性を忠実に保持する点です。32次元では、HDF空間における距離がグラフ編集距離との間で0.9のピアソン相関を達成しますが、同等サイズのモルガンフィンガープリントでは0.55です。この構造的な忠実性は、ハッシュベース手法が劣化する低次元においても維持され、64成分という少数でも単純な最近傍回帰が予測可能性を保てます。さらに、ベイズ分子最適化における実用的な影響も示します。そこでは、HDFベースの代理モデルが、モルガンフィンガープリントがランダム探索と同程度に機能する領域において、サンプル効率を大幅に改善します。したがって、HDFは、従来の分子フィンガープリントに対する、汎用的で学習不要の代替手段を提供します。固定長フィンガープリントに本来として長く受け入れられてきた情報損失は、フィンガープリントという概念自体の限界というよりも、ハッシュベースの符号化方式に起因する制約であることを示唆しています。