要旨: 生物学的AIモデルは、複雑な細胞応答をますます正確に予測する一方で、学習された表現は、捉えようとしている分子プロセスから切り離されたままです。私たちは、DNA、RNA、タンパク質という全てのセントラルドグマにわたって、メカニズム指向のAIを拡張する CDT-III を提示します。その2段階の Virtual Cell Embedder(VCE)アーキテクチャは、細胞の空間的区画化を模倣しています。VCE-N は核内での転写を行い、VCE-C は細胞質における翻訳を行います。5つの未見遺伝子において、CDT-III は遺伝子ごとの RNA が r=0.843、タンパク質が r=0.969 を達成します。タンパク質予測を追加すると、RNA の性能が r=0.804 から 0.843 へ改善し、下流タスクが上流の表現を正則化することを示します。タンパク質の教師信号は、DNAレベルの解釈可能性を鋭くし、CTCF の濃縮を30%増加させます。in silico において Alemtuzumab を近似する CD52 ノックダウンを適用すると、このモデルは 29/29 のタンパク質変化を正しく予測し、臨床データなしで既知の臨床的副作用 7 件中 5 件を再発見します。勾配ベースの副作用プロファイリングでは、摂動のないベースラインデータのみが必要(r=0.939)であり、新たな実験なしに全 2,361 遺伝子のスクリーニングを可能にします。
Central Dogma Transformer III:DNA・RNA・タンパク質にわたる解釈可能なAI
arXiv cs.LG / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- CDT-III(Central Dogma Transformer III)は、DNA・RNA・タンパク質にまたがる“セントラルドグマ”全体で機構志向の解釈可能AIを拡張する生物学AIモデルとして提案されました。
- 2段階のVirtual Cell Embedder(VCE-N/VCE-C)により、核での転写と細胞質での翻訳という細胞内の空間的区画化を反映した表現学習を行います。
- 遺伝子ごとの性能として、5つの未学習遺伝子でRNAの相関r=0.843、タンパク質の相関r=0.969を達成し、タンパク質予測の追加がRNA表現の向上に寄与する(r=0.804→0.843)ことを示しています。
- タンパク質の教師信号によりDNAレベルの解釈可能性が強化され、CTCFエンリッチメントが30%増加したと報告されています。
- in silicoのCD52ノックダウン(Alemtuzumab相当)ではタンパク質変化29/29の正答や既知の副作用の再発見を行い、さらに未摂動のベースラインデータだけで勾配ベースの副作用プロファイリングを可能にして2,361遺伝子のスクリーニングを新規実験なしで実施できると述べています。