予算感度を備えた発見スコアリング: AI支援による科学的選択を評価する形式検証済みフレームワーク

arXiv cs.AI / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 予算感度を備えた発見スコア(BSDS)を導入します。これは Lean 4 によって機械検証された 20 の定理を有する形式検証済み指標で、各予算レベルで偽発見(λ重み付き FDR)と過度の棄却(γ重み付きカバレッジギャップ)を同時に罰します。
  • 予算を平均化した形式である Discovery Quality Score(DQS)は、最適な予算を恣意的に選択して水増しできない単一の要約統計量を提供します。
  • 薬物発見候補選択のケーススタディにおいて、BSDS/DQS は LLM 構成を含む 39 提案者を評価し、単純な RF ベースの Greedy-ML 提案が最良の DQS を達成した一方、ゼロショットまたは few-shot 設定ではいかなる LLM 構成もそれを上回らなかった。
  • このフレームワークは、非対称な誤差コストを伴う予算制約下の候補選択に対して一般化可能であり、5 つの MoleculeNet ベンチマークに跨って広く適用可能であることを示しています。

要旨:
科学的発見はますます高価な実験的検証の候補を選択するAIシステムに依存していますが、原理的で予算を意識した評価フレームワークは存在せず、信頼性のある下流評価なしにもっともらしい科学的提案を生成するLLMsによってこのギャップはさらに悪化します。私たちはBudget-Sensitive Discovery Score(BSDS)を導入します。これは正式に検証された指標で— Lean 4の証明支援アシスタントによって機械検証された20の定理 — 各予算レベルで偽発見(λ加重FDR)と過度な回避(γ加重カバレッジギャップ)を同時にペナルティ化します。その予算を平均化した形式であるDiscovery Quality Score(DQS)は、特定の都合の良い予算でうまくやることによって水増しできない、単一の総括統計量を提供します。ケーススタディとして、BSDS/DQSを適用します:LLMsは薬物発見候補の選択のための既存MLパイプラインに、限界的な価値を付加しますか?39の提案者を評価します—11の機構的バリアント、14のゼロショットLLM構成、そして14のファューショットLLM構成—を、MoleculeNet HIVデータセットのSMILES表現を用いて、(41,127個の化合物、アクティブ率3.5%、ブートストラップ再現数1,000)において、ランダム分割とスキャフォールド分割の両方で評価します。3つの発見が明らかになりました。第一に、単純なRFベースのGreedy-ML提案者が最良のDQS(-0.046)を達成し、すべてのMLPバリアントおよびLLM構成を上回りました。第二に、HIVおよびTox21におけるゼロショットまたは少数ショット評価において、いかなるLLMもGreedy-MLベースラインを上回らず、LLMsは既存の訓練済み分類器に対して追加的な価値を提供しないことを示しています。第三に、提案者の階層は、0.18%〜46.2%の有病率にわたるMoleculeNetの5つのベンチマーク、非薬物のAV安全性領域、および罰則パラメータの9×7グリッド(tau >= 0.636、平均tau = 0.863)にまたがって一般化します。このフレームワークは、予算制約と非対称な誤差コストの下で候補が選択されるあらゆる設定に適用可能です。

予算感度を備えた発見スコアリング: AI支援による科学的選択を評価する形式検証済みフレームワーク | AI Navigate