CRC-Screen：分類体系の変化下での認証DNA合成ハザード・スクリーニング

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文は、既存のDNAハザード検知が参照セットにない系統（taxonomic family）のハザード配列に対して破綻し得て、場合によっては100%の偽の検知（false-flag）挙動にまで至ることを示しています。
「CRC-Screen」として、合成オーダーの公開注釈から得る3つの信号（既知毒素とのk-mer Jaccard類似度、5つのLLM判定パネルのトリム平均スコア、埋め込みセントロイドとの余弦類似度）を単調ロジスティック・アグリゲータで統合する手法を提案しています。
Conformal Risk Control（CRC）を用いて、期待偽陰性率E[FNR] ≤ αという統計的な保証を、認証されたミス率制約の下で与えます。
UniProt KW-0800（レビュー済み毒素）でα=0.05、10個の「1系統を除外」foldの評価を行い、全foldでテスト見逃し率0%、10中9foldでテスト偽陽性（false-flag）率0%を達成しています。
認証DNA合成スクリーニングのボトルネックはアルゴリズムではなくキャリブレーション用データ量であり、調達レベルのα=10^-3を満たすには、200ハザードのサブサンプル比で約18倍のキャリブレーションセットが必要だと見積もっています。

Abstract

DNA合成プロバイダは、要求された配列を、キュレーションされた危険リストに照合することで、入ってきた注文をスクリーニングする。ここでは、このベースラインが、危険な配列が参照セットに含まれていない分類（taxonomic）ファミリーに由来する場合に、100%の誤ったフラグ（false-flag）率へと崩壊することを示す。Conformal Risk Control（適合的リスク制御）の認証されたミス率制約のもとでは、低い識別のシグナルがしきい値をテスト上の良性（test-benign）質量全体より下へ押し下げてしまう。私たちは、合成注文の公開アノテーションから導出した3つのシグナルを組み立てる。すなわち、既知の毒物への

k

-merのJaccard類似度、5つのLLM（大規模言語モデル）による審査パネルのトリム平均スコア、そしてクラスター化された埋め込み重心（embedding centroids）とのコサイン類似度である。単調なロジスティック集約器（aggregator）で融合し、Conformal Risk Controlによって較正することで、得られたスクリーナは

mathbb{E}[\mathrm{FNR}] \le \alpha

を証明する。UniProt KW-0800におけるレビュー済み毒物について、

alpha=0.05

で「10分割（テスト）」のうち「1つの分類ファミリーを除外（leave-one-taxonomic-family-out）」する10個のフォールドにわたって較正したスクリーナは、各フォールドでテストのミス率0%を達成し、10フォールド中9フォールドでテストの誤ったフラグ率0%を達成する。バウンドの有限サンプルにおける余裕（slack）

1/(n_{\mathrm{cal}}+1)

は、私たちの200件の危険サブサンプルでは、認証可能なミス率を1.77%に抑える。調達（procurement）グレードの

alpha=10^{-3}

に到達するには、

18\times

大きい較正セットが必要であり、レビュー済みの全UniProt KW-0800コーパスはそれを提供するのに十分な大きさである。認証可能なDNA合成スクリーニングに対する制約条件はアルゴリズムではなく、較正データである。コード: https://github.com/najmulhasan-code/crc-screen

Black Hat USA

AI Business

LLMのためのとても基本的なリトマステスト

Reddit r/LocalLLaMA

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

Dev.to

鉄の意思、鉄の問題：Kiwi-chanの採掘トラブル記！⛏️

Dev.to

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Dev.to

CRC-Screen：分類体系の変化下での認証DNA合成ハザード・スクリーニング

要点

Abstract

関連記事

Black Hat USA

LLMのためのとても基本的なリトマステスト

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

鉄の意思、鉄の問題：Kiwi-chanの採掘トラブル記！⛏️

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer