負の連続パターンのマイニングで、ウイルスのゲノム特徴表現と分類を改善する

arXiv cs.LG / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、主に組成や頻度ベースの部分配列特徴に依存する既存のウイルスゲノム分類モデルの限界(解釈性の低さや、複雑・不均衡データでの精度低下)を扱っています。
  • GeneNSPClaとして、RNAウイルスのゲノム配列から識別的な「不在」に基づく信号を抽出するNegative Sequential Patterns(NSP)を用いた分類フレームワークを提案し、それを数値特徴ベクトルに変換して複数の教師あり分類器に統合します。
  • ゲノムデータ処理向けに適応した負のパターンマイニング手法として、より長く生物学的に意味のある負の連続パターンを見つけるGONPM+を提案しています。
  • 実験では8つの分類器において、GONPM+が平均精度で元の負のパターンマイニング手法より10.03%改善し、正のパターンマイニングより24.75%改善したことを示しています。
  • 総じて、不在ベースの連続情報を取り入れることが、ウイルスゲノムの表現と分類に対して補完的かつ有効な視点を与えることを示唆しています。
  • .

概要: ウイルスは地球上で最も豊富な生物学的実体であり、微生物生態系において極めて重要な役割を果たしますが、一方で主要なヒトの病原体でもあるため、ヒトの罹患および死亡と密接に結びついています。したがって、ウイルスゲノム配列からウイルス配列を正確に同定することは不可欠です。しかし、配列の構成(コンポジション)や頻度に基づく部分配列特徴に大きく依存する既存のゲノムベースの分類モデルは、解釈可能性が限られ、精度も低下しやすく、特に複雑または不均衡なデータセットにおいてその傾向が顕著です。これらの制約に対処するために、我々は、RNAウイルスゲノムのヌクレオチド配列から識別的な欠如(不在)に基づく特徴を抽出する、Negative Sequential Patterns(NSPs)に基づく新しいウイルス分類フレームワークであるGeneNSPCla(Genomic Negative Sequential Pattern-based Classification)を提案します。これらのNSPを数値特徴ベクトルへと変換し、それらを複数の教師あり分類器に統合することで、GeneNSPClaはウイルス配列における「存在」と「不在」の両方の信号を効果的に捉えます。さらに、ゲノムデータの処理に適した負のパターン採掘アルゴリズムとして、GONPM+も提案します。GONPM+は、より長く、かつ生物学的により意味のある負の逐次パターンを見出すことができます。実験結果は、8つの分類器におけるGONPM+の平均精度が、元の負のパターン採掘アルゴリズムと比較して10.03%向上し、正のパターン採掘アルゴリズムと比較して24.75%向上したことを示しています。これらの知見は、不在に基づく逐次情報を取り入れることの有効性を浮き彫りにしており、ウイルスゲノム解析と分類に対して新しく補完的な視点を提供するものです。