広告

生成事前学習とテスト時コンピュートによる原子論的タンパク質バインダー設計のスケーリング

arXiv cs.LG / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本稿は、構造ベースのde novo結合(binder)設計を「条件付き生成モデリング」と「構造予測器による最適化(hallucination)」の二分法として扱うのは不適切だと主張し、その統合手法としてProteina-Complexaを提案している。
  • Proteina-Complexaは、最近のフロー系潜在生成アーキテクチャを拡張し、単量体の計算予測構造間のドメイン相互作用を用いて新たな大規模合成バインダー・ターゲット対データセットTeddymerで事前学習し、「強い基盤モデル」を構築する。
  • 推論時には生成事前分布を用いたテストタイム最適化により、従来の生成アプローチとhallucination系の利点を同時に取り込む形で設計性能を高める。
  • ベンチマークでは既存の生成手法よりインシリコ成功率が大幅に改善され、また正規化した計算量の条件下で既存のhallucination手法を上回るテストタイム最適化戦略を示している。
  • さらに、界面水素結合の最適化、フォールドクラス誘導に基づくバインダー生成、小分子標的や酵素設計への拡張などを行い、優位性を示しつつコード・モデル・新データの公開も予告している。

Abstract

Protein interaction modeling is central to protein design, which has been transformed by machine learning with applications in drug discovery and beyond. In this landscape, structure-based de novo binder design is cast as either conditional generative modeling or sequence optimization via structure predictors ("hallucination"). We argue that this is a false dichotomy and propose Proteina-Complexa, a novel fully atomistic binder generation method unifying both paradigms. We extend recent flow-based latent protein generation architectures and leverage the domain-domain interactions of monomeric computationally predicted protein structures to construct Teddymer, a new large-scale dataset of synthetic binder-target pairs for pretraining. Combined with high-quality experimental multimers, this enables training a strong base model. We then perform inference-time optimization with this generative prior, unifying the strengths of previously distinct generative and hallucination methods. Proteina-Complexa sets a new state of the art in computational binder design benchmarks: it delivers markedly higher in-silico success rates than existing generative approaches, and our novel test-time optimization strategies greatly outperform previous hallucination methods under normalized compute budgets. We also demonstrate interface hydrogen bond optimization, fold class-guided binder generation, and extensions to small molecule targets and enzyme design tasks, again surpassing prior methods. Code, models and new data will be publicly released.

広告