GeneMamba:単一細胞データ上の効率的かつ効果的な基盤モデル

arXiv cs.CL / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • GeneMambaは、高次元性・スパース性・バッチ効果といったscRNA-seqの課題に対処する、単一細胞RNAシーケンス向けのスケーラブルな基盤モデルとして提示される。
  • 手法は、双方向の遺伝子文脈を線形時間で捉えるために、Transformer型の二次計算量の代わりに状態空間モデル(Bi-Mamba)を用いる。
  • GeneMambaは約3,000万細胞で事前学習され、生物学的に根ざした学習目的を用いる。これには、経路を考慮したコントラスティブ損失や、順位に基づく遺伝子エンコーディングが含まれる。
  • 複数バッチ統合、細胞タイプ注釈、遺伝子間相関にわたる評価により、Transformerのベースラインと比べて、強い性能に加え、解釈可能性と頑健性も示される。
  • 著者らは、GeneMambaを大規模で生物学的に根ざした単一細胞解析における、Transformerベース手法の実用的な代替として位置づけている。

概要: シングルセルRNAシーケンシング(scRNA-seq)は、細胞の不均一性を高解像度に解析できる一方で、高次元性、スパース性、バッチ効果によって特徴づけられるその複雑さが、主要な計算上の課題をもたらします。トランスフォーマーベースのモデルはこの分野で大きな進展を遂げているものの、二次的な計算量という制約や、長距離依存の取り扱いが十分でないことが多いです。本研究では、状態空間モデリングに基づく、単一細胞トランスクリプトミクス向けのスケーラブルで効率的な基盤モデルであるGeneMambaを導入します。Bi-Mambaアーキテクチャを活用することで、GeneMambaは線形時間計算量で双方向の遺伝子文脈を捉え、トランスフォーマーのベースラインに比べて大幅な計算上の利得を提供します。このモデルは約3,000万細胞で事前学習され、生物学的に根ざした目的関数を組み込みます。これには、経路を考慮したコントラスト損失や、順位に基づく遺伝子エンコーディングが含まれます。私たちは、GeneMambaを多様なタスク—たとえば複数バッチの統合、細胞タイプのアノテーション、遺伝子間相関—にわたって評価し、高い性能、解釈可能性、頑健性を示します。これらの結果は、GeneMambaをトランスフォーマーベースの手法に対する実用的で強力な代替として位置づけ、生物学的に根ざした、大規模単一細胞データ解析のためのスケーラブルなツールの開発を前進させます。