要旨: T細胞は獲得免疫系の重要な構成要素であり、感染症、自己免疫、そしてがんにおいて役割を果たします。T細胞機能はT細胞受容体(TCR)タンパク質によって媒介されます。TCRは非常に多様な受容体であり、大主要組織適合性複合体(pMHCs)によって提示される特定のペプチドを標的とします。TCRがその標的となるpMHCに対してどのような特異性を持つかを予測することは、獲得免疫を理解し、個別化医療に資する治療を可能にするための中核です。しかし、このタンパク質-タンパク質相互作用の正確な予測は、TCRとpMHCの双方が極端に多様であるため、依然として困難です。ここでは、ImmSET(Immune Synapse Encoding Transformer)を提示します。これは、可変長の生物学的配列の集合間の相互作用をモデル化することを目的とした、新しいシーケンスベースのアーキテクチャです。私たちは本モデルを、さまざまなデータセット規模と構成にわたって学習し、得られたモデルがpMHC標的に対してどの程度一般化するかを調べます。さらに、先行するシーケンスベース手法において、この課題で報告された性能を不当に(過大に)見せてしまう失敗モードが存在することを述べ、ImmSETがより厳密な評価の下でも頑健であることを示します。ImmSETの学習データに対するスケーリング挙動を体系的に検証することで、複数のデータ型にわたって性能がデータ量に応じて一貫して向上することを示し、同一のデータセットで微調整した事前学習済みタンパク質言語モデルESM2と比較しても良好であることを示します。最後に、十分な学習データが与えられた場合、ImmSETがTCR-pMHC特異性予測においてAlphaFold2およびAlphaFold3ベースのパイプラインを上回り得ることを実証します。本研究は、TCR-pMHCの設定で示されたように、多シーケンス相互作用問題に対するスケーラブルなモデリングのパラダイムとしてImmSETを確立し、構造予測や実験的な対応付けを補完する、高スループットな配列駆動型推論が有用となる他の生物学的領域にも一般化可能であることを示します。
ImmSET: 大規模におけるTCR-pMHC特異性の配列ベース予測
arXiv cs.LG / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- ImmSET(Immune Synapse Encoding Transformer)は、TCRとpMHCのような「可変長配列のセット間相互作用」を、シーケンス情報のみで予測するための新しいトランスフォーマー型アーキテクチャを提案しています。
- 先行するシーケンスベース手法にある評価上の失敗モード(過大評価につながる条件)を指摘し、より厳密な評価でもImmSETが堅牢であることを示しています。
- 学習データ量を増やしたときのスケーリング挙動を体系的に検証し、複数のデータ型で一貫して性能がデータ量とともに伸びることを報告しています。
- ESM2(タンパク質言語モデル)を同データでファインチューニングした場合と比較して好成績であり、さらに十分な学習データがある条件ではAlphaFold2/3ベースのパイプラインを上回る可能性も示しています。




