ドナーを考慮したIBD分類のためのscRNA-seqベンチマーク

arXiv stat.ML / 2026/5/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、IBDのscRNA-seq疾患分類ではドナーを考慮した交差検証が必須だと主張しており、ランダムに細胞を分割すると擬似反復(pseudoreplication)が生じて性能が過大評価されうる点を示しています。
  • ドナーを考慮したベンチマークを、2つの独立したIBDコホート(SCP259の潰瘍性大腸炎とKong 2023のクローン病)で提示し、特徴表現としてCLR組成、GatedStructuralCFN依存埋め込み、scVI潜在埋め込みの3手法を比較します。
  • ドナーを考慮した結果としてSCP259で高いAUROCが得られ、Kongコホートでは大腸領域でCFNが線形のCLRを上回る一方、回腸末端では線形モデルが優勢になることが示されます。
  • コホート間の転移は非対称で、CD→UCはAUC 0.833と一定の性能を示す一方、UC→CDは偶然に近い結果でした。また、CFNのエッジ安定性は、区画(compartment)で層別した特徴により改善し、グローバル組成に由来する見かけの不安定性を低減します。
  • ベンチマークのコードも公開されており、区画を意識した特徴構築が予測精度とモデル構造の解釈性の両方で重要だと結論づけています。

Abstract

単一細胞RNAシーケンス(scRNA-seq)に基づくドナー・レベルの疾患分類には、厳密なドナーを考慮した交差検証が必要である。細胞をランダムに分割する素朴なパイプラインは、学習ドナーとテストドナーを混同し、擬似反復(pseudoreplication)によって報告される性能を過大評価してしまう。私たちは、IBDの2つの独立したコホートに対して、3種類の特徴表現を評価するドナーを考慮したベンチマークを提示する。具体的には、中心対数比(CLR)に変換した細胞タイプ構成、GatedStructuralCFN依存埋め込み、scVI変分オートエンコーダの潜在埋め込みである。対象コホートは、SCP259の潰瘍性大腸炎アトラス(UC vs. 健常、ドナー数n=30、細胞タイプ数51)と、Kong 2023のクローン病アトラス(CD vs. 健常、n=71、3つの腸領域にわたり細胞タイプ数55〜68)である。 区画(compartment)で層化したCLR構成は、SCP259でAUROC 0.956 +/- 0.061を達成する。同じ特徴に対するGatedStructuralCFNは0.978 +/- 0.050を達成する。Kongコホートでは、CFNは結腸領域で最良の性能を示し(特徴フィルタリング後0.960 +/- 0.055)、線形CLR(0.900 +/- 0.100)を上回る。一方、終末回腸(terminal ileum)の分類は線形モデルが優勢であり(CatBoost CLR 0.967 +/- 0.075 vs. CFN 0.811 +/- 0.164)、支配的である。データセット間の転移(CD->UC、4つの共有細胞タイプ)では、XGBoost CLRによりAUC 0.833を達成するが、逆方向の性能は偶然レベルである。CFNのエッジ安定性解析では、区画ごとの構成が、グローバル構成に存在する、単位和(unit-sum)に起因する見かけの不安定性を解消することが示される(Jaccard 0.026 vs. 上位20回の再出現1.0)。CFNは、CDの結腸領域において線形モデルに対して一貫した数値的優位性を示す(AUROC 0.960 vs. 0.900)が、方法間の比較で統計的有意性が確認されたのは、各領域あたりn<=34ドナーの範囲ではなかった。区画を意識した特徴構築は、分類性能と構造的な解釈可能性の両方にとって重要である。コード: https://github.com/Jonathan-321/sfn-scrna-study