単一細胞ファウンデーションモデルの網羅的回路マッピングは巨大な冗長性と重尾部のハブ構造、および層依存の分化制御を明らかにする

arXiv cs.LG / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • Geneformer の層5における全4065個のアクティブなスパースオートエンコーダ特徴の網羅的回路追跡は、1,393,850個の有意な下流エッジを明らかにし、従来の選択的サンプリングより27倍の拡大を達成した。
  • 結果は重尾部のハブ分布を示し、特徴の1.8% が結合性の大半を担い、上位20個のハブのうち40% が生物学的注釈を欠くことが分かった。これらは以前の分析に偏りがあることを示している。
  • 8つの特徴トリプレットにまたがる3-way combinatorial ablationは、相互作用次数とともに冗長性が深まることを示し、三者比0.59、ペアワイズ比0.74、シナジーゼロであり、サブ加法性を示唆する。
  • 軌跡指向の特徴ステアリングは、層の位置と分化方向性の因果関係を確立し、L17の後層特徴は成熟へ向かって細胞状態を押し進め、陽性割合は1.0。L0およびL11の初期・中間層特徴は成熟から遠ざける方向に働く(陽性割合0.00–0.58)。
  • これらを総合すると、これらの発見は単一細胞ファウンデーションモデルにおける層依存的な細胞状態制御の因果証拠を提供し、以前の相関分析を超える。
Abstract: 生物学的ファウンデーションモデルの機械的解釈可能性は、選択的特徴サンプリング、ペアワイズ相互作用検証、および観察的軌道分析に依存してきた。これらのいずれも体系的なバイアスを生じさせる可能性がある。ここでは、Geneformer(トランスフォーマーをベースとする単一細胞ファウンデーションモデル)において、網羅的回路追跡、高次の組合せアブレーション、および因果的軌道誘導を通じてこれらの制限に対処する3つの実験を提示する。まず、層5の全4065個のアクティブなスパースオートエンコーダ特徴を網羅的に追跡すると、1,393,850個の有意な下流エッジが得られ、選択的サンプリングと比べて27倍の拡大となる。これは、1.8%の特徴が過度に結合性を担い、上位20のハブの40%が生物学的注釈を欠く重尾部のハブ分布を明らかにする。これらの結果は、以前の選択的分析における系統的な注釈バイアスを示している。次に、8つの特徴トリプレットにまたがる3-way combinatorial ablationは、相互作用次数とともに冗長性が単調的に深まることを示し、三者比0.59に対してペアワイズ比0.74、シナジーはゼロであることを示す。これは、モデルアーキテクチャが検証されたすべての順序においてサブ加法的であることを確認する。第三に、軌道誘導型特徴ステアリングは、層の位置と分化方向性との因果的リンクを確立する。L17 の後層特徴は一貫して細胞状態を成熟へ押し進め、陽性割合は1.0に等しい。L0およびL11の初期・中間層特徴は成熟からの逸脱を主に促し、陽性割合は0.00〜0.58の範囲になる。これらの結果を総合すると、相関だけでなく層依存的な細胞状態制御の因果的証拠へと移行している。