次世代シーケンシングの品質管理の研究のための、複数の特徴表現を伴う不均衡データセット

arXiv cs.LG / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、さまざまな実験設定にまたがって品質問題を自動的に検出することを目的とした、新しい次世代シーケンシング(NGS)の品質管理(QC)データセットを、37,491サンプルから構築して提示する。
  • 同一のヒトおよびマウスのサンプルに対して、5種類のゲノムアッセイを対象に、互いに補完的な2つの特徴表現を提供する。1つは固定QC由来の特徴(QC-34)であり、もう1つはENCODEブロックリストに基づくリード数特徴(BL特徴)である。BL特徴は特徴数が8〜1,183と可変である。
  • 各サンプルには、自動化されたQC結果に加えてドメインの専門家の入力を反映したバイナリの品質ラベルが含まれる。なお、低品質サンプルはデータセット全体の3.2%を占める。
  • 実験により、教師あり機械学習モデルが両方の特徴タイプから品質ラベルを正確に予測できることが示され、これらの表現の有用性が支持される。
  • 本データセットにより、特徴タイプ(QC-34対BL特徴)および特徴の粒度(BL特徴の異なる数)がNGSの品質問題の検出にどのように影響するかを、直接比較できる。

要旨: 次世代シーケンシング(NGS)は、生物のDNAおよびRNAを研究するための重要な技術である。しかし、さまざまな実験設定にまたがるNGSデータにおいて品質問題を特定することは、依然として困難である。自動化された品質管理(quality-control)ツールを開発するために、研究者は品質問題の特徴を捉えるような特徴量を含んだデータセットを必要とする。しかし、既存のNGSリポジトリは品質に関連する特徴量を限られた数しか提供していない。このギャップに対処するため、本研究では37.491件のNGSサンプルから派生した、品質関連の特徴量表現を2種類持つデータセットを提案する。1つ目のタイプは、品質管理ツール(QC-34 features)から導出された34の特徴量から成る。2つ目のタイプは、8から1.183の範囲で変動する特徴量の数を持つ。これらの特徴量は、ENCODEのブラックリスト(blocklist; BL)によって特定された問題のあるゲノム領域におけるリード数から導出された(BL features)。すべての特徴量は、5つのゲノムアッセイから得られた同一のヒトおよびマウスのサンプルを記述しており、特徴量表現の直接比較を可能にする。提案するデータセットには、自動品質管理およびドメインの専門家から導出されたバイナリの品質ラベルが含まれている。全サンプルのうち3.2\%が低品質である。教師あり機械学習アルゴリズムは、特徴量から品質ラベルを正確に予測し、提供された特徴量表現の妥当性を確認した。提案する特徴量表現により、異なる特徴量タイプ(QC-34 vs. BL features)および粒度(変動するBL特徴量の数)が品質問題の検出にどのように影響するかを研究者が調べることができる。