より大きいモデルは本当に創薬で勝つのか?分子特性・活性予測におけるモデルスケーリングのベンチマーク評価

arXiv cs.LG / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 新しいarXivのベンチマーク研究では、構造類似性で分けた5分割クロスバリデーションとホールドアウト評価により、創薬における「より大きいモデルほど常に勝つ」という考えを22の分子特性・活性エンドポイントで検証しています。
  • 古典的ML(ECFP4に対するRF、RDKit記述子に対するExtraTreesなど)は10の主要指標タスクで最上位となり、GNN(GIN、Ligandformerなど)は9で、事前学習済み分子配列モデル(MoLFormer、ChemBERTa2など)は3で優位でした。
  • SAR推論のルールベース基準(GPT5.5-SAR、Opus4.7-SAR)は、あらかじめ設定された主要指標では上回りませんでしたが、学習折に由来するSAR知識を用いるとSAR推論と解釈に対して測定可能な(ただし偏りのある)改善が得られることが示されました。
  • 論文は、コンパクトで専門化されたモデルが分子特性・活性予測で依然として非常に有効であり、モデル規模や汎用性が常に普遍的な予測向上につながるわけではないと結論づけています。
  • 大型・汎用モデルはゼロショット推論、SARの解釈、仮説生成で価値を持ち得る一方で、分子表現・帰納バイアス・データの状況・エンドポイントの生物学・検証プロトコルの整合が重要になるとしています。

概要: 分子基盤モデルおよび汎用の大規模言語モデルの急速な成長により、創薬における人工知能を「規模重視」の観点で捉える見方が促進されてきました。この見方では、より大きな事前学習モデルが、コンパクトな計算化学(cheminformatics)モデルや、タスク固有のグラフニューラルネットワーク(GNN)を置き換えることが期待されます。本研究では、この仮定を22の分子特性および活性のエンドポイントに対して検証します。具体的には、公的なADMETおよびTox21ベンチマーク、ならびに2つの社内(internal)の抗感染性活性データセットを含めます。構造類似性で分離した5重クロスバリデーションのもとで、167,056件の保持(held-out)タスク—分子評価を実施しました(37,756件のADMET、77,946件のTox21、49,266件の抗TB、2,088件の抗マラリア)。その結果、RF(ECFP4)やExtraTrees(RDKit記述子)のような従来型の機械学習(ML)モデルが主要指標の10タスクで勝利し、GINやLigandformerのようなGNNが9タスクで勝利し、MoLFormerやChemBERTa2のような事前学習済み分子配列モデルが3タスクで勝利しました。一方で、GPT5.5-SARおよびOpus4.7-SARとして表されるルールベースのSAR推論ベースラインは、あらかじめ定めた主要指標のもとでは勝利しませんでした。ただし、訓練フォールドから導出されたSARの知識は、SAR推論と解釈に対して測定可能ではあるものの不均一な改善をもたらしました。これらの結果は、コンパクトで専門化されたモデルが、分子の特性および活性予測において依然として非常に有効であることを示しています。従来型ML、GNN、事前学習済み配列モデル間の性能差は、しばしばわずかで、エンドポイントに依存します。一方で、より大きい、あるいはより汎用的なモデルは、普遍的な予測上の優位性を提供しません。大規模モデルは、ゼロショット推論、SAR解釈、仮説生成において価値をもたらす可能性がありますが、予測性能は分子表現、帰納バイアス、データの状況、エンドポイントの生物学、および検証プロトコルの整合性に依存することを示唆しています。