Central Dogma Transformer III: Interpretable AI Across DNA, RNA, and Protein

arXiv cs.LG / 3/25/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • CDT-III(Central Dogma Transformer III)は、DNA・RNA・タンパク質にまたがる“セントラルドグマ”全体で機構志向の解釈可能AIを拡張する生物学AIモデルとして提案されました。
  • 2段階のVirtual Cell Embedder(VCE-N/VCE-C)により、核での転写と細胞質での翻訳という細胞内の空間的区画化を反映した表現学習を行います。
  • 遺伝子ごとの性能として、5つの未学習遺伝子でRNAの相関r=0.843、タンパク質の相関r=0.969を達成し、タンパク質予測の追加がRNA表現の向上に寄与する(r=0.804→0.843)ことを示しています。
  • タンパク質の教師信号によりDNAレベルの解釈可能性が強化され、CTCFエンリッチメントが30%増加したと報告されています。
  • in silicoのCD52ノックダウン(Alemtuzumab相当)ではタンパク質変化29/29の正答や既知の副作用の再発見を行い、さらに未摂動のベースラインデータだけで勾配ベースの副作用プロファイリングを可能にして2,361遺伝子のスクリーニングを新規実験なしで実施できると述べています。

Abstract

Biological AI models increasingly predict complex cellular responses, yet their learned representations remain disconnected from the molecular processes they aim to capture. We present CDT-III, which extends mechanism-oriented AI across the full central dogma: DNA, RNA, and protein. Its two-stage Virtual Cell Embedder architecture mirrors the spatial compartmentalization of the cell: VCE-N models transcription in the nucleus and VCE-C models translation in the cytosol. On five held-out genes, CDT-III achieves per-gene RNA r=0.843 and protein r=0.969. Adding protein prediction improves RNA performance (r=0.804 to 0.843), demonstrating that downstream tasks regularize upstream representations. Protein supervision sharpens DNA-level interpretability, increasing CTCF enrichment by 30%. Applied to in silico CD52 knockdown approximating Alemtuzumab, the model predicts 29/29 protein changes correctly and rediscovers 5 of 7 known clinical side effects without clinical data. Gradient-based side effect profiling requires only unperturbed baseline data (r=0.939), enabling screening of all 2,361 genes without new experiments.