RosettaSearch:タンパク質配列設計のための多目的推論時探索

arXiv cs.LG / 2026/4/21

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • RosettaSearchは、LLMを生成的オプティマイザとして用い、推論時に探索アルゴリズムへ組み込むことで、タンパク質配列設計を多目的に最適化する手法として提案されている。
  • 報酬(評価)はRosettaFold3による構造予測に基づいて計算され、単発のデコードでは得にくい設計品質を、探索における制御された探索・活用で高める。
  • 大規模評価ではLigandMPNNが生成した劣後配列400件に対し、RosettaSearchが高忠実度な設計を回復し、構造忠実度指標を18%〜68%改善し、設計成功率を約2.5倍に向上させた。
  • 成功率の向上は独立した構造予測オラクル(Chai-1)でも頑健であり、LLMファミリー(o4-miniとGemini-3)にまたがって一般化し、推論能力とともに性能が一貫して伸びる。
  • さらに、de novoで生成したバックボーン(Dayhoffアトラス)への適用や、予測構造の画像をフィードバックに用いるビジョン・言語モデルによるマルチモーダル拡張も示され、アプローチがネイティブ以外の計算生成構造にも及ぶことを示している。

要旨: タンパク質配列最適化のための、推論時(inference-time)マルチ目的最適化手法であるRosettaSearchを紹介します。探索アルゴリズムの中で、制御された探索と活用(exploitation)を可能にする生成オプティマイザとして、大規模言語モデル(LLM)を用います。ここでの報酬は、構造予測モデルであるRosettaFold3から計算されます。大規模評価では、LigandMPNN(タンパク質配列設計のために学習された最先端モデル)が生成した400の劣った(suboptimal)配列に対してRosettaSearchを適用し、LigandMPNNの単一パス復号(single-pass decoding)では得られない高忠実度な設計を回収しました。RosettaSearchの設計は、構造忠実度指標において18\%〜68\%の範囲で改善を示し、設計成功率に換算すると2.5\timesの向上に相当します。これらの成功率の向上は、RosettaSearchによって設計された配列を独立した構造予測オラクル(Chai-1)で評価しても頑健であり、さらに2つの異なるLLMファミリ(o4-miniおよびGemini-3)にまたがって一般化することを観察しました。また、その性能のスケーリングは推論能力に一貫して従います。さらに、RosettaSearchは、Dayhoffアトラスの\textit{de novo}バックボーン上でProteinMPNNによって設計された配列の配列忠実度も向上させ、ネイティブなタンパク質構造だけでなく、計算によって生成されたバックボーンにも本手法が一般化できることを示します。加えて、視覚言語モデルによるRosettaSearchのマルチモーダル拡張も実証します。これは、予測されたタンパク質構造の画像をフィードバックとして用い、構造的文脈を取り込むことで、タンパク質配列生成を導くものです。本手法によって生成される配列軌跡は、配列設計モデルの学習データとして、またはポストトレーニングにおいて利用でき、出版とともにコードおよびデータセットと共に公開されます。