CRC-Screen:分類体系の変化下での認証DNA合成ハザード・スクリーニング

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 本論文は、既存のDNAハザード検知が参照セットにない系統(taxonomic family)のハザード配列に対して破綻し得て、場合によっては100%の偽の検知(false-flag)挙動にまで至ることを示しています。
  • 「CRC-Screen」として、合成オーダーの公開注釈から得る3つの信号(既知毒素とのk-mer Jaccard類似度、5つのLLM判定パネルのトリム平均スコア、埋め込みセントロイドとの余弦類似度)を単調ロジスティック・アグリゲータで統合する手法を提案しています。
  • Conformal Risk Control(CRC)を用いて、期待偽陰性率E[FNR] ≤ αという統計的な保証を、認証されたミス率制約の下で与えます。
  • UniProt KW-0800(レビュー済み毒素)でα=0.05、10個の「1系統を除外」foldの評価を行い、全foldでテスト見逃し率0%、10中9foldでテスト偽陽性(false-flag)率0%を達成しています。
  • 認証DNA合成スクリーニングのボトルネックはアルゴリズムではなくキャリブレーション用データ量であり、調達レベルのα=10^-3を満たすには、200ハザードのサブサンプル比で約18倍のキャリブレーションセットが必要だと見積もっています。

Abstract

DNA合成プロバイダは、要求された配列を、キュレーションされた危険リストに照合することで、入ってきた注文をスクリーニングする。ここでは、このベースラインが、危険な配列が参照セットに含まれていない分類(taxonomic)ファミリーに由来する場合に、100%の誤ったフラグ(false-flag)率へと崩壊することを示す。Conformal Risk Control(適合的リスク制御)の認証されたミス率制約のもとでは、低い識別のシグナルがしきい値をテスト上の良性(test-benign)質量全体より下へ押し下げてしまう。私たちは、合成注文の公開アノテーションから導出した3つのシグナルを組み立てる。すなわち、既知の毒物へのk-merのJaccard類似度、5つのLLM(大規模言語モデル)による審査パネルのトリム平均スコア、そしてクラスター化された埋め込み重心(embedding centroids)とのコサイン類似度である。単調なロジスティック集約器(aggregator)で融合し、Conformal Risk Controlによって較正することで、得られたスクリーナはmathbb{E}[\mathrm{FNR}] \le \alphaを証明する。UniProt KW-0800におけるレビュー済み毒物について、alpha=0.05で「10分割(テスト)」のうち「1つの分類ファミリーを除外(leave-one-taxonomic-family-out)」する10個のフォールドにわたって較正したスクリーナは、各フォールドでテストのミス率0%を達成し、10フォールド中9フォールドでテストの誤ったフラグ率0%を達成する。バウンドの有限サンプルにおける余裕(slack)1/(n_{\mathrm{cal}}+1)は、私たちの200件の危険サブサンプルでは、認証可能なミス率を1.77%に抑える。調達(procurement)グレードのalpha=10^{-3}に到達するには、18\times大きい較正セットが必要であり、レビュー済みの全UniProt KW-0800コーパスはそれを提供するのに十分な大きさである。認証可能なDNA合成スクリーニングに対する制約条件はアルゴリズムではなく、較正データである。コード: https://github.com/najmulhasan-code/crc-screen