LIT-PCBAライブラリにおける単一ポーズドッキング、コンセンサス・リスコアリング、教師ありMLのベンチマーク評価:DiffDock、AutoDock-GPU、GNINA、DiffDock-NMDNの批判的検証

arXiv cs.LG / 2026/5/5

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本研究は、実験的に導出されたLIT-PCBAライブラリ(15ターゲット、活性/不活性が確認された578,295のリガンド–ターゲット対)を用いて、複数のバーチャルスクリーニング手法のワークフローを大規模にベンチマークした。
  • ポーズ生成としてAutoDock-GPUとDiffDockを比較し、その後GNINAおよびNMDNでリスコアリングを行った結果、AutoDock-GNINA(AutoDock-GPUのポーズをGNINAでリスコア)が最良の単一手法となり、中央値EF1%は2.14だった。
  • DiffDockベースのパイプラインは全般にAutoDock-GNINAに及ばず、特にOPRK1のような難しいターゲットでその傾向が強かった。
  • コンセンサスに基づく順位付け/リスコアリング戦略は頑健性を高めたものの、最良の単一スコアリング手法を超えることはできなかった。一方、教師ありMLによる再ランキングは最も大きな改善をもたらし、中央値EF1%は4.49(AutoDock-GNINAに対して+110%)を達成した。
  • 総じて、本研究は単一のドッキング手法が全ターゲットで常に優位とは限らず、検証済みでコスト効率の高い古典+MLのハイブリッド手法に、教師あり再ランキングを組み合わせることが、バーチャルスクリーニングにおける実用的な初期濃縮に最も適していると結論づけた。

Abstract

仮想スクリーニングの性能は、選択したドッキング手法およびスコアリング手法に大きく依存します。DiffDockやNMDNのような近年のAIベースのツールは強力なベンチマーク結果を報告していますが、実際の実験で得られたデータセットに対する実用上の有用性は不明なままです。ここでは、LIT-PCBAライブラリ(15のターゲット、実験的に確認された活性体および不活性体を含む578,295のリガンド-ターゲットペア)を用いた大規模評価を実施します。我々は、ポーズ生成についてAutoDock-GPUとDiffDockを比較し、その後GNINAおよびNMDNによる再スコアリングを行います。さらに、ランクに基づくコンセンサス戦略およびドッキング特徴量で学習した教師あり機械学習モデルについても評価します。 AutoDock-GPUポーズ(AutoDock-GNINA)に対するGNINAの再スコアリングは、単一手法として最も強力で、中央値EF1%が2.14でした。DiffDockベースのアプローチは、特にOPRK1のような難易度の高いターゲットにおいて、AutoDock-GNINAに比べて性能が劣りました。慎重に設計されたコンセンサスによるランキングは頑健性を高めましたが、最良の単一スコアラーを上回ることはありませんでした。教師ありMLによる再ランキングは最も大きな改善をもたらし、中央値EF1%は4.49(AutoDock-GNINAに対して+110%)を達成しました。 本研究の結果は、最良の古典的手法+MLのハイブリッドワークフローであっても、現実的なベンチマークにおいては初期の濃縮(early enrichment)が限定的であることを示しています。結論として、単一のドッキング手法がすべてのターゲットを一貫して支配することはなく、教師あり再ランキングを伴う、厳密に検証された費用対効果の高い組み合わせが、現在のバーチャルスクリーニングにおいて最も実用的な価値を提供すると考えられます。