拡散ガイド付き潜在最適化によるタンパク質のカウンターファクチュアル
arXiv cs.LG / 2026/3/12
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は MCCOP を紹介する。これは、タンパク質モデルの予測を望ましいターゲット状態へ反転させる最小限で生物学的に妥当な配列編集を計算するフレームワークである。
- 連続的な結合配列-構造潜在空間で動作し、事前学習済みの拡散モデルを多様体前提として用い、有効性、近接性、妥当性の三つの目的をバランスさせる。
- GFP蛍光回復、熱力学的安定性の向上、E3リガーゼ活性の回復という3つのタンパク質工学タスクで評価し、離散および連続のベースラインよりも、よりスパースで妥当性の高いカウンタファクチュアルを生成する。
- 回収された変異は既知の生物物理学的メカニズムと整合し、解釈性と仮説駆動型のタンパク質設計の可能性を支持する。コードは GitHub に公開されている。
要旨: ディープラーニングモデルはタンパク質の性質を前例のない精度で予測できるが、機構的洞察や改良されたバリアントの設計に役立つ実践的な指針を提供することはまれである。モデルが抗体を不安定と示すと、タンパク質エンジニアは次の手がかりを失う。どの変異が機能を維持しつつ安定性を回復させるのか?私たちは Manifold-Constrained Counterfactual Optimization for Proteins(MCCOP)を導入する。これは、モデルの予測を望ましいターゲット状態へ反転させる最小限で生物学的に妥当な配列編集を計算するフレームワークである。MCCOPは連続的な結合配列-構造潜在空間で動作し、事前学習済みの拡散モデルを多様体前提として用い、有効性(ターゲット特性の達成)、近接性(変異の最小化)、および妥当性(折りたたみ可能なタンパク質の生成)の三つの目的をバランスさせる。私たちは MCCOP を GFP蛍光回復、熱力学的安定性の向上、E3リガーゼ活性の回復という三つのタンパク質工学タスクで評価し、離散および連続のベースラインよりも、よりスパースで妥当性の高いカウンタファクチュアルを生成することを示す。回収された変異は、クロモフォアのパッキングや疎水性コアの安定化といった既知の生物物理学的メカニズムと一致しており、MCCOPをモデル解釈と仮説駆動型タンパク質設計のツールとして位置づける。私たちのコードは github.com/weroks/mccop に公開されている。
