FDARxBench: FDAのジェネリック薬評価における規制と臨床推論のベンチマーク

arXiv cs.AI / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 新たな専門家が厳選したベンチマーク FDARxBench は、FDA の薬剤ラベル文書を用いた文書に基づく質問応答を評価し、規制および臨床推論を総合的に評価します。
  • FDA の規制評価者と共同で開発され、多段階のパイプラインを用いて、事実関係、マルチホップ推論、拒否タスクを網羅する高品質な専門家厳選の QA 例を生成します。
  • 評価フレームワークはオープンブック推論とクローズドブック推論の両方を検証し、事実的根拠づけ、長い文脈の取得、および現在のモデルの安全な拒否行動における重大なギャップを浮き彫りにします。
  • FDA のジェネリック薬評価ニーズを動機としている一方で、FDARxBench は薬剤ラベル理解と LLM の挙動を規制グレードで評価するための基盤も提供します。

要約:私たちは、ジェネリック薬の評価を動機として、専門家が厳選し現実世界のベンチマークを導入します。文書に基づく質問応答(QA)を評価するために、米国食品医薬品局(FDA)の薬剤ラベル文書を使用します。薬剤ラベルには豊富でなおかつ異種の臨床・規制情報が含まれており、現在の言語モデルにとって正確な質問応答を難しくしています。FDAの規制審査官と協力して、FDARxBenchを導入し、高品質で専門家が厳選したQA例を生成する多段階のパイプラインを構築します。これらは事実ベース、マルチホップ、拒否タスクにまたがり、オープンブック推論とクローズドブック推論の両方を評価する評価プロトコルを設計します。専有モデルと公開重みモデルを横断する実験は、事実的根拠づけ、長い文脈の検索、および安全な拒否挙動に重大なギャップがあることを明らかにします。FDAのジェネリック薬評価ニーズに動機づけられている一方で、このベンチマークはラベル理解の規制レベルの評価に挑戦するための実質的な基盤も提供します。このベンチマークは、薬剤ラベルに関する質問に対するLLMの挙動を評価することを支援するよう設計されています。

返却形式: {"translated": "翻訳されたHTML"}