タンパク質ワードを用いてタンパク質—小分子の相補的なペアリング規則を予測する解釈可能なフレームワーク

arXiv cs.LG / 2026/4/21

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、結合親和性データから「フラグメント間のペアリング規則」を導くことで、タンパク質—小分子の結合予測の解釈可能性を高めるPWRulesフレームワークを提案している。
  • PWRulesは、優先的(privileged)な小分子フラグメントを特定し、それをタンパク質の「ワード」(意味的な配列単位)と対応づけ、アクティブ化合物をPWScore関数で順位付けする。
  • ベンチマーク評価では、PWScoreは物理ベース(Glide)および深層学習(PSICHIC)と比肩する性能を示し、学習に含まれない標的タンパク質にも幅広く適用できる(例:SARS-CoV-2のメインプロテアーゼ)。
  • 解釈可能性は、明示的な構造指導なしでも、学習されたワード—フラグメント規則がリガンド結合ポケット近傍に有意に濃縮されることを示す構造解析で裏付けられている。
  • PWRulesを既存の物理ベース/深層学習手法と統合すると濃縮(enrichment)性能が向上し、相補的な相互作用情報を追加することが示唆される。

概要: 「ブラックボックス」の深層学習モデルが高い精度を持つにもかかわらず、創薬は依然としてタンパク質-リガンド相互作用の原理とヒューリスティックに依存しています。タンパク質-小分子結合予測の解釈可能性を高めるために、PWRulesフレームワークを開発しました。これは、結合親和性データを適用して特権的(privileged)な小分子フラグメントを同定し、その後、解釈可能性モジュールを通じて、これらのフラグメント同士とタンパク質の語(セマンティックな配列単位)との補完的なペアリング規則を定義します。得られた語-フラグメント規則は、その後PWScore関数によってランキングされ、有効(アクティブ)な化合物を優先します。ベンチマークデータセットでの評価では、PWScoreは物理ベースのモデル(Glide)や深層学習モデル(PSICHIC)に匹敵する競争力のある性能を達成し、さらに学習データセット外のタンパク質標的、たとえばSARS-CoV-2のメインプロテアーゼに対しても幅広い適用可能性を示しました。特に、PWScoreは補完的な相互作用情報を捉えており、これらの既存手法と統合すると、濃縮(enrichment)性能が優れていました。タンパク質-リガンド複合体の構造解析からは、明示的な構造ガイダンスなしで学習したにもかかわらず、学習された語-フラグメント規則がリガンド結合ポケット近傍で有意に濃縮されていることが示されました。補完的なペアリング規則を抽出し適用することで、PWRulesは創薬のための解釈可能な枠組みを提供します。