要約:私たちは、ジェネリック薬の評価を動機として、専門家が厳選し現実世界のベンチマークを導入します。文書に基づく質問応答(QA)を評価するために、米国食品医薬品局(FDA)の薬剤ラベル文書を使用します。薬剤ラベルには豊富でなおかつ異種の臨床・規制情報が含まれており、現在の言語モデルにとって正確な質問応答を難しくしています。FDAの規制審査官と協力して、FDARxBenchを導入し、高品質で専門家が厳選したQA例を生成する多段階のパイプラインを構築します。これらは事実ベース、マルチホップ、拒否タスクにまたがり、オープンブック推論とクローズドブック推論の両方を評価する評価プロトコルを設計します。専有モデルと公開重みモデルを横断する実験は、事実的根拠づけ、長い文脈の検索、および安全な拒否挙動に重大なギャップがあることを明らかにします。FDAのジェネリック薬評価ニーズに動機づけられている一方で、このベンチマークはラベル理解の規制レベルの評価に挑戦するための実質的な基盤も提供します。このベンチマークは、薬剤ラベルに関する質問に対するLLMの挙動を評価することを支援するよう設計されています。
返却形式: {"translated": "翻訳されたHTML"}



