MADE：不確実性定量化付きの医療機器有害事象を対象としたマルチラベル文章分類のための“生きた”ベンチマーク

arXiv cs.CL / 2026/4/17

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文では、医療機器の有害事象レポートから作られ、継続的に新規公開レポートで更新されることで学習データの汚染リスクを抑える「生きた（living）」マルチラベル文章分類ベンチマークMADEを提案する。
MADEは、長い尾を持つ階層ラベル分布、ラベル間の依存、組み合わせの複雑さといったMLTCの課題に対処しつつ、厳密な時間分割（temporal splits）により再現可能な評価を可能にしている。
著者らは、20種超のエンコーダ型・デコーダ型モデルについて、微調整およびfew-shot（instruction-tuned/ reasoning）設定（ローカル利用・APIアクセス可能なものを含む）でベースラインを大規模に提示する。
不確実性定量化（UQ）を、エントロピー/一貫性ベースおよび自己発話（self-verbalized）型の方法として体系的に比較し、生成的微調整が最も信頼できるUQをもたらす一方で、大規模推論モデルは希少ラベルの性能向上に寄与するがUQが意外に弱いことを示す。
自己発話による信頼度は真の不確実性の代理として信頼できないこと、また小型の判別的微調整デコーダは頭部〜尾部までの精度を高く保ちつつUQでも競争力を維持し得ることを結論づけている。

概要: 医療などの高リスク領域における機械学習は、強力な予測性能だけでなく、人間による監督を支えるための信頼できる不確実性定量化（UQ）も必要とします。マルチラベルテキスト分類（MLTC）はこの領域における中核的な課題ですが、ラベルの不均衡、依存関係、組合せの複雑さにより依然として難しいままです。既存のMLTCベンチマークはますます飽和しており、学習データの汚染の影響を受けている可能性があります。そのため、本物の推論能力と単なる暗記を見分けることが困難です。私たちは、{m}edical device {ad}verse {e}vent（医療機器有害事象）報告から生成され、汚染を防ぐために新しく公開された報告で継続的に更新される、生きたMLTCベンチマークであるMADEを導入します。MADEは階層ラベルの長い裾（ロングテール）分布を特徴とし、厳格な時系列分割によって再現可能な評価を可能にします。私たちは、微調整および少数ショット設定（instruction-tuned/推論バリアント、ローカル/ローカルまたはAPIでアクセス可能）において、20以上のエンコーダのみ/デコーダのみモデルにまたがるベースラインを確立します。エントロピー／一貫性に基づく手法、および自己記述（自己による言語化）されたUQ手法を体系的に評価します。結果は明確なトレードオフを示します。すなわち、より小さな識別的に微調整されたデコーダは、競争力のあるUQを維持しつつ、head-to-tail（頭部から末尾への）精度で最も強い性能を示します。生成的微調整は最も信頼できるUQを提供します。大規模な推論モデルは稀なラベルでの性能を向上させる一方で、驚くほど弱いUQを示します。また、自己記述された確信度は不確実性の信頼できる代理指標ではありません。私たちの研究は https://hhi.fraunhofer.de/aml-demonstrator/made-benchmark で公開されています。