因果的なTCR—pMHC結合推論のための反事実ペプチド編集

arXiv cs.LG / 2026/4/16

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • TCR–pMHC結合予測モデルはショートカット学習に悩まされることがあり、物理的な結合インターフェースではなく、見かけ上の相関に依存してしまうため、より難しい評価設定での汎化性能が低下します。
  • 本論文では、Counterfactual Invariant Prediction(CIP)を提案します。CIPは、生物学的制約を課した反事実的なペプチド編集を作成し、非アンカー位置の変化には不変性を保ちつつ、MHCアンカー残基の破壊には感度を示すようにモデルを学習させます。
  • CIPは、厳選したVDJdb-IEDBベンチマークにおいて、分布外(OOD)性能を改善し、AUROCが0.831、ファミリーを除外するプロトコル下で反事実一貫性(CFC)が0.724に到達しました。
  • 制約なしのベースラインと比較して、CIPはショートカット指標を39.7%低減し、アブレーション結果は、OODでの獲得効果の主要因がアンカーを意識した編集生成であることを示しています。
  • 著者らはCIPを、単なる相関ベースの予測ではなく、因果的に根拠づけられたTCR特異性モデリングのための実用的なレシピとして位置づけています。

要旨: TCR-pMHC 結合予測のためのニューラルモデルは、ショートカット学習に対して脆弱です。すなわち、それらは物理的な結合インターフェースではなく、学習データにおける見かけ上の相関――たとえばペプチド長のバイアスや V 遺伝子の共起――を利用してしまいます。その結果、このようなショートカットが伝達しない家系(ファミリー)非依存(family-held-out)および距離を考慮した評価のもとでは、予測が脆くなります。我々は
\emph{反事実不変予測}(Counterfactual Invariant Prediction: CIP)を提案します。CIP は、生物学的に制約された反事実的なペプチド編集を生成し、アンカー以外の位置に対する編集に対して不変性を強制しつつ、MHC アンカー残基に対しては感度を増幅する学習フレームワークです。CIP は基礎となる分類器を 2 つの補助目的で拡張します:(1)保存的な非アンカー置換のもとで予測が変化することを罰する不変性損失、そして(2)アンカー位置での破壊により大きな予測変化を促す対比損失です。家系非依存、距離を考慮した、そしてランダム分割のもとで、厳選した VDJdb-IEDB ベンチマークにより評価したところ、CIP は困難な家系非依存プロトコルで AUROC 0.831、反事実一貫性(CFC)0.724 を達成しました。これは、非制約のベースラインに対してショートカット指標を 39.7
% 削減したことに相当します。アブレーションにより、アンカーに配慮した編集生成が OOD(分布外)での改善の主要な駆動要因であることが確認され、因果的に根拠づけられた TCR 特異性モデリングのための実用的なレシピを提供します。