VERI-DPO: クレーム検証と直接的嗜好最適化を通じた臨床要約の証拠認識型アラインメント

arXiv cs.CL / 2026/3/12

💬 オピニオンModels & Research

共有:

要点

VERI-DPOは、主張検証とDirect Preference Optimizationを組み合わせ、検索補助付き検証機を用いて、断片化されたEHRエビデンスに忠実な要約者を訓練します。
主張とエビデンスのペアを「支持あり」「支持なし」「未回答」とラベル付けし、これらのシグナルを用いて、長さを制御した、矛盾を軸とした嗜好ペアを導出します。
MIMIC-III-Ext-VeriFact-BHCの検証対象ICU患者（100名、患者レベル分割）では、Not Supported率がローカル検証機判定で10.7%から1.9%へ、GPT-4o判定で11.6%から6.4%へ低減し、妥当性が76.7%から82.5%へ上昇します。
本アプローチは、LLMベースの臨床要約における省略や未サポートの記述を削減し、情報量を損なうことなく信頼性を向上させることを目指します。

要約: Brief Hospital Course（BHC）記述は臨床的に有用であると同時に、断片化されたEHRエビデンスに忠実である必要があります。LLMベースの臨床要約者は依然として未検証の記述を生み出すことがあり、整合性を取ろうとすることが省略を促す可能性があります（「say-less」退化）。我々はVERI-DPOを導入します。これは主張検証を用いて嗜好を抽出し、それを直接的嗜好最適化（DPO）により要約者へ蒸留します。MIMIC-III-Ext-VeriFact-BHC（100人のICU患者、患者レベルの分割）では、検索補助型検証機を訓練し、主張-エビデンスのペアを「支持あり」「支持なし」「未回答」という1トークン形式でラベル付けします。検証機はサンプリングされたBHC候補から文レベルの主張をスコア付けし、マージンをカバレッジを意識したユーティリティへ集約して、長さを制御し、矛盾を軸とした嗜好ペアを抽出します。未知の患者で検証機で抽出された嗜好は矛盾密度により候補を分離し、VERI-DPOはNot Supportedの主張率をローカル検証機判定で10.7%から1.9%へ、GPT-4o判定で11.6%から6.4%へ低減し、妥当性を76.7%から82.5%へ向上させ、情報価値のある長さを維持します。

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

VERI-DPO: クレーム検証と直接的嗜好最適化を通じた臨床要約の証拠認識型アラインメント

要点

関連記事

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer