要旨: 化学的な生物活性の機械学習モデルは、実験的な追跡のためにバーチャルスクリーニングライブラリから少数の化合物を優先順位付けする用途で、ますます広く利用されるようになってきています。これらの応用では、上位Nヒットに対して計算される正例予測価値(Positive Predicted Value: PPV)である早期ヒットの濃縮(early hit enrichment)によってモデル精度を評価することは、AUCのような従来のグローバル指標よりも、より適切で実行可能です。私たちは、解釈可能なコルモゴロフ=アーノルドネットワーク(Kolmogorov-Arnold Networks: KAN)とXGBoost、ランダムフォレスト、多層パーセプトロン(multilayer perceptron)モデルを組み合わせたアンサンブルのワークフローであるKANELを提案します。このモデルは、補完的な分子表現(LillyMol記述子、RDKit由来の記述子、モルガン指紋)で学習されています。
KANEL:コルモゴロフ=アーノルドネットワークのアンサンブル学習により、高スループット仮想スクリーニングで初期ヒットの濃縮を実現
arXiv cs.LG / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、AUCのような全体的な指標よりも、上位N件における正例の予測的価値(PPV@N)といった早期ヒット濃縮指標の方が、仮想スクリーニングにおいてより実用的であると主張している。
- KANELは、解釈可能なコルモゴロフ=アーノルドネットワーク(KAN)に追加の予測器(XGBoost、ランダムフォレスト、マルチレイヤーパーセプトロン)を統合するアンサンブルワークフローとして提案される。
- KANELは、順位付け性能の向上のために、LillyMol記述子、RDKit由来の記述子、モルガンフィンガープリントなどの相補的な分子表現を用いて学習される。
- 全体として、このアプローチは、高スループット仮想スクリーニングのパイプラインにおける実験的フォローアップ対象の化合物を、早期濃縮を最適化することでより適切に優先順位付けすることを目指している。



