PRIME:物理情報に基づくマルチスケールの等変階層によるタンパク質表現

arXiv cs.LG / 2026/5/5

📰 ニュースModels & Research

要点

  • PRIMEは、タンパク質を5つの物理に基づいた構造グラフのネスト階層として扱い、多様な空間スケールの表現を統合する新しいタンパク質表現学習フレームワークです。
  • 隣接する構造レベルを決定論的な物理情報付き割り当て演算子で接続し、ボトムアップ集約とトップダウンの文脈的洗練によって双方向の情報伝達を可能にしています。
  • ベンチマーク実験では全体として競争力のある性能が示され、特にFold Classificationで最大の改善が報告されており、最強の幾何GNNベースラインに対して大きなマージンで上回っています。
  • PRIMEはReaction Class予測で状態-最新(SOTA)の性能を達成し、84.10%の精度を示し、ESMを含むベースラインを上回ります。
  • アブレーション実験とクロスアテンション分析により、各構造レベルが相補的で冗長でない情報を提供し、推論時にPRIMEがタスクに最も関連する解像度を自律的に選択することが示されています。
  • さらに、著者らは提供されたGitHubリポジトリでソースコードを公開しています。

Abstract

タンパク質は本質的に多スケールの物理システムであり、その機能特性は、原子間相互作用から大域的な折りたたみトポロジーまでに及ぶ複数の空間解像度にわたる、協調的な構造組織化によって創発します。しかし、既存のタンパク質表現学習手法は通常、単一の構造レベルで動作するか、あるいは異なる情報源から得られる構造情報を並列なモダリティとして扱うだけで、階層的関係を明示的にはモデル化していません。私たちは、PRIME(Protein Representation via Physics-Informed Multiscale Equivariant Hierarchies)を導入します。PRIMEは、表面、原子、残基、二次構造、タンパク質レベルにまたがる5つの物理的に根拠づけられた構造グラフの入れ子(ネスト)としてタンパク質を表現する、統一的な枠組みです。隣接するレベルは決定論的で物理に基づく割り当て演算子によって接続されており、ボトムアップの集約とトップダウンの文脈的洗練を通じて、双方向の情報交換を可能にします。標準的なタンパク質表現学習ベンチマークに関する実験では、多様なタスクにわたって強力かつ競争力のある性能が示されました。特に、Fold Classificationベンチマークで顕著な改善が得られており、PRIMEは最強の幾何学的GNNベースラインを、より難しいSuperfamily分割およびFold分割においてそれぞれ13.80点および18.30点の差で上回ります。また、Reaction Class予測では84.10%の最先端精度を達成し、ESMを含むすべてのベースライン手法を上回りました。アブレーション研究により、各構造レベルが相補的で冗長ではない情報を提供していることが確認され、適応的なクロスアテンション分析により、PRIMEが予測時にタスクに最も関連する構造解像度を自律的に同定できることが明らかになりました。ソースコードは https://github.com/HySonLab/PRIME で公開されています