注釈をいつ信頼すべきか？ MS/MSスペクトルからの分子構造検索の選択的予測

arXiv cs.LG / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MS/MSスペクトルからの分子構造検索のための選択的予測フレームワークを提案しており、不確実性が高すぎる場合にモデルが予測を辞退できるようにする。
不確実性定量化戦略を2つの粒度レベルで評価する：予測された分子フィンガープリントビットに対するフィンガープリントレベルの不確実性と、候補ランキングに対するリトリーバルレベルの不確実性。
一階の信頼度測度、二階分布からのアレアトリックおよびエピステミック不確実性、潜在空間の距離ベースの測度を含むスコアリング関数を比較する。
指紋レベルの不確実性スコアはリトリーバルの成功の適切な代理指標とはならない一方、リトリーバルレベルのアレアトリック不確実性と単純な一階の信頼度は、評価設定を横断して強いリスク-カバレッジのトレードオフを達成することを示し、一般化境界を介した分布に依存しないリスク制御により、高確率で信頼できる注釈の許容誤差率を指定できることを示す。

タンデム質量スペクトル（MS/MS）からの分子構造同定のための機械学習手法は急速に進歩していますが、現在のアプローチには依然として顕著な誤り率が存在します。臨床代謝オミクスや環境スクリーニングのような高リスクな応用では、誤った注釈は重大な影響を及ぼす可能性があるため、予測を信頼できるかどうかを判断することが不可欠です。我々は、MS/MSスペクトルからの分子構造検索のための選択的予測フレームワークを導入し、不確実性が高すぎる場合にモデルが予測を辞退できるようにします。我々はリスク-カバレッジのトレードオフの枠組みの中で問題を定式化し、粒度を2つのレベルで不確実性定量化戦略を総括的に評価します：予測された分子フィンガープリントビットに対するフィンガープリントレベルの不確実性と、候補ランキングに対するリトリーバルレベルの不確実性です。我々は、一階の信頼度指標、二階分布からのアレアトリックおよびエピステミック不確実性、さらには潜在空間の距離ベースの測度を含むスコアリング関数を比較します。すべての実験はMassSpecGymベンチマーク上で実施されています。我々の分析は、指紋レベルの不確実性スコアがリトリーバルの成功を適切に代理する指標ではない一方で、リトリーバルレベルのアレアトリック不確実性と計算的に安価な一階の信頼度測度が、評価設定を跨いで強いリスク-カバレッジのトレードオフを達成することを明らかにします。さらに、一般化境界を用いた分布に依存しないリスク制御を適用することにより、実務者は許容誤差率を指定し、その制約を満たす注釈のサブセットを高い確率で得ることができることを示します。