PlainQAFact: 生物医学のプレーン言語要約における検索補強型事実的一致性評価指標

arXiv cs.CL / 2026/3/20

📰 ニュースTools & Practical UsageModels & Research

要点

  • PlainQAFact は、生物医学のプレーン言語要約における事実的一致性を評価する、検索補強型の指標であり、医療機械学習の出力における幻情報の発生を抑制することを目指す。
  • まず各文をタイプ別に分類し、その後検索補強型の質問応答スコアリング手法を適用して、文ごとを意識した評価を実現する。
  • この指標は、人手でアノテーションされた PlainFact データセットを用いて訓練されており、元のソースを簡略化した文と詳述された説明文の両方を対象とする。
  • 実証的には、PlainQAFact は、異なる評価設定において既存の事実的一致性指標を上回り、特に詳述的な説明に対して優れている。
  • 本研究では、外部知識源の影響、回答抽出戦略、回答の重複度の測定、文書の粒度を分析し、安全なプレーン言語医療コミュニケーションのための新しいベンチマークと実用的ツールを提供する。

Abstract

要約: 大規模言語モデル(LLMs)による幻覚的出力は、医療領域において特に健康関連の意思決定を行う一般の聴衆に対してリスクをもたらします。既存の自動的事実的一貫性評価手法、含意推論や質問応答(QA)ベースのものなどは、平易な言語要約(PLS)に対して苦戦します。これは、理解を深めるために科学的要約には存在しない定義・背景・例などの外部コンテンツを導入する「詳述的説明現象」に起因します。これに対処するため、PlainQAFactを導入します。これは、細粒度で人手注釈付きのデータセットPlainFactを用いて訓練された、ソースを簡略化した文と詳述的に説明された文の両方の事実的一貫性を評価する自動評価指標です。PlainQAFactはまず文のタイプを分類し、次に情報取得を組み込んだQAスコアリング手法を適用します。実証的な結果は、既存の評価指標がPLSにおける事実的一貫性を評価できないこと、特に詳述的な説明ではそうであることを示しています。これに対してPlainQAFactは、すべての評価設定において一貫してこれらを上回ります。さらに、外部知識源、回答抽出戦略、回答の重複測定、文書の粒度レベルにわたるPlainQAFactの有効性を分析し、全体的な事実的一貫性評価を洗練させます。総じて、本研究は生物医学のPLSタスクにおける詳述的説明を対象とした、文レベルを意識し、情報取得を組み込んだ指標を提示します。これにより、コミュニティには新しいベンチマークと、医療分野における信頼性が高く安全な平易な言語コミュニケーションを進展させる実践的な評価ツールの両方を提供します。PlainQAFactとPlainFactは以下で入手可能です: https://github.com/zhiwenyou103/PlainQAFact