要旨: 予測的連想記憶(PAM)フレームワークは、有用な関係はしばしば、埋め込み空間上で似ているアイテム同士ではなく、共有される文脈の中で共起するアイテム同士を結ぶと仮定する。共起アノテーションで訓練したコントラストive MLP--コントラストive 連想学習(CAL)--は、多段(multi-hop)のパッセージ検索を改善し、テキストにおいてコーパス規模で物語上の機能を発見した。私たちは、この原理が分子生物学へ転移するかどうかを検証する。分子生物学では、タンパク質-タンパク質相互作用が、遺伝子発現の類似性とは異なる機能的な関連を提供する。2つの生物学領域にまたがる4つの実験により、作動領域(operating envelope)をマッピングする。遺伝子摂動データ(Replogle K562 CRISPRi, 2,285遺伝子)では、STRINGのタンパク質相互作用で訓練したCALが、発現類似性スコア0.518に対して、境界をまたぐAUC(cross-boundary AUC)0.908を達成する。2つ目の遺伝子データセット(DepMap, 17,725遺伝子)でも、負のサンプリング補正後にこの結果が確認され、境界をまたぐAUCは0.947に到達する。2つの薬剤感受性実験では、情報量の多い負例が生成され、境界条件がより鮮明になる。領域をまたぐ3つの発見が得られる: (1) 生物学において帰納的転移が成功する--未観測の遺伝子を含むノード非交差(node-disjoint)分割でAUC 0.826(Delta +0.127)が得られる--一方テキストでは失敗する(+/-0.10)。これは、物理的に裏付けられた関連が、偶発的な共起よりも転移可能であることを示唆する; (2) CALスコアは相互作用の次数と反相関する(Spearman r = -0.590)。改善は、相互作用プロファイルが絞られた、未研究の遺伝子に集中する; (3) 関連の質がより厳密(tighter)であることが、大きいがノイズの多い訓練セットよりも優れる。これはテキストのパターンを反転させる。結果は訓練の種(training seeds)や境界をまたぐ閾値の選択に対して安定している(SD < 0.001)。
発現類似性を超えて:コントラスト学習がタンパク質相互作用構造から機能遺伝子の関連性を回復する
arXiv cs.LG / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、PAMフレームワークの下で、コントラスト学習アプローチ(Contrastive Association Learning, CAL)を提案し、有用なリンクは埋め込みの類似性ではなく、共起コンテキストの共有から生じると主張する。
- 分子生物学における実験により、タンパク質—タンパク質相互作用データでCALを学習すると、遺伝子の発現類似性よりも遺伝子の機能的関連性をはるかに良く復元でき、AUCは 0.908(CRISPRi/K562)および 0.947(DepMap)という結果が得られた。
- ドメインをまたいだテストでは、テキストよりも生物分野のほうで帰納的転移がより良く機能し、ノード非交差スプリットによりAUC 0.826(基準値に対して+0.127)を達成し、生物学的に根ざした相互作用シグナルが一般化することを示唆している。
- 著者らは、CALスコアがタンパク質相互作用の次数と負の相関を示すことを見出している(Spearman r = -0.590)。また改善は、相互作用プロファイルが絞られている未研究(過小評価)遺伝子に集中している。
- より高品質な関連データは、より大きいがノイズの多い学習セットを上回り得ることを観察しており、結果はランダムシードや閾値の選択に対しても安定していた。