TriFit:タンパク質ダイナミクスによるトリモーダル・フュージョンで、変異適応度(mutation fitness)を予測

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TriFitは、単一アミノ酸バリアント(SAV)の変異適応度予測に向けたマルチモーダルの教師ありフレームワークとして提示されており、配列と構造に加えてタンパク質ダイナミクスを明示的に取り込みます。
  • このモデルは、3つの埋め込み(embedding)源—ESM-2に基づく配列埋め込み、AlphaFold2由来の構造幾何埋め込み、Gaussian Network Model(GNM)のダイナミクス特徴—を、4エキスパートのMixture-of-Experts(MoE)と、トリモーダルのクロスモーダル対比学習を用いて融合します。
  • TriFitは、MoEルータによって、タンパク質ごとにどのモダリティの組み合わせをどの程度重み付けすべきかを適応的に学習し、どのモダリティが最も重要かという固定的な仮定を回避します。
  • ProteinGymの置換ベンチマーク(217のDMSアッセイ、696kのSAV)において、TriFitはAUROC 0.897 ± 0.0002を報告し、先行する教師ありベースラインを上回り、記載されている最良のゼロショットモデルよりも改善しています。
  • アブレーションの結果、ダイナミクスはペアワイズな融合を超える追加の効果において最も大きく寄与し、この手法は事後キャリブレーションを行わずに、良くキャリブレーションされた確率出力を生成することが示されています。

要旨: 単一アミノ酸置換(SAV)の機能的影響を予測することは、遺伝性疾患の理解や治療用タンパク質の設計・工学において中核となる課題です。タンパク質言語モデルや構造に基づく手法はこのタスクで高い性能を達成している一方で、タンパク質ダイナミクスを体系的に無視しています。残基の柔軟性、相関した運動、そしてアロステリック結合は構造生物学において変異耐性を決定する重要な要因として確立されているにもかかわらず、教師ありの変異体効果予測器には取り入れられてきませんでした。本研究では、TriFitというマルチモーダルの枠組みを提案します。これは、4つのエキスパートからなるMixture-of-Experts(MoE)融合モジュールと、トリモーダルのクロスモーダル対照学習により、配列、構造、そしてタンパク質ダイナミクスを統合します。配列埋め込みはESM-2(650M)によるマスク付き周辺(marginal)スコアリングで抽出します。構造埋め込みはAlphaFold2が予測したCαジオメトリから得ます。そしてダイナミクス埋め込みは、Gaussian Network Model(GNM)のBファクター、モード形状、ならびに残基間のクロス相関から作成します。MoEルータは入力に条件付けてモーダルの組合せに対する重みを適応的に調整し、固定されたモーダル仮定を置かずにタンパク質固有の融合を可能にします。ProteinGym置換ベンチマーク(217のDMSアッセイ、696kのSAV)において、TriFitはAUROC 0.897 +/- 0.0002を達成し、Kermut(0.864)やProteinNPT(0.844)を含むすべての教師ありベースラインを上回ります。また、最良のゼロショットモデルであるESM3(0.769)よりも高い性能を示します。アブレーション研究により、ダイナミクスがペアのモーダル組合せに対して最大の追加的寄与(marginal contribution)をもたらすことが確認されます。さらにTriFitは事後補正(post-hoc correction)なしで、よく較正された確率出力を実現します(ECE = 0.044)。