BLUEmed：臨床エラー検出のための検索拡張型マルチエージェント・ディベート

arXiv cs.CL / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

BLUEmedは、臨床ノート内で「文法的には正しいが臨床的には誤りの用語」に置換されるタイプの用語置換エラー検出を対象としたマルチエージェント・ディベート型フレームワークである。
各ノートを複数のサブクエリに分解し、密/疎/オンライン検索を組み合わせたハイブリッドRAGによって、ソース分割された根拠を取得する。さらに、異なる知識ベースを持つ2つの専門エージェントが独立に分析する。
両専門エージェントの意見が食い違う場合は、反論ラウンドとクロスソースでの裁定プロセスにより対立を解消し、その後に安全層で典型的な誤検知パターンをフィルタする。
ベンチマーク評価では、few-shotプロンプトで精度69.13%、ROC-AUC74.45%、PR-AUC72.44%を達成し、単一エージェントRAGやディベートのみのベースラインを上回った。
背景モデル6種と2種類のプロンプト戦略にわたる追加分析から、検索拡張と構造化ディベートが相補的であり、特に十分な指示追従性と臨床言語理解を持つモデルで効果が大きいことが示された。

要旨: 臨床ノートにおける用語の置換（terminology substitution）エラー、すなわち、ある医療用語が言語学的に正しく見えるが臨床的には異なる用語に置き換えられるケースは、医療領域における自動エラー検出に対する持続的な課題となっています。本研究では、証拠に基づく推論と多視点による検証を組み合わせたハイブリッド Retrieval-Augmented Generation（RAG）を強化したマルチエージェントによる討論（debate）フレームワーク「BLUEmed」を提案します。BLUEmedは、各臨床ノートを注目するためのサブクエリに分解し、密（dense）・疎（sparse）・オンライン検索によってソース単位で分割された証拠を取得し、さらに2つのドメイン専門家エージェントにそれぞれ異なる知識ベースを割り当てて、独立した分析を生成します。専門家同士が意見を異にした場合には、構造化された反論ラウンドと、ソース横断の裁定（adjudication）によって対立を解消し、続いて一般的な偽陽性パターンを除外するカスケード型のセーフティ層が適用されます。ゼロショットおよび少数ショット・プロンプト（few-shot prompting）の両設定において、複数のバックボーン・モデル（独自モデルおよびオープンソースのファミリーにまたがる）を用いて、臨床用語置換検出ベンチマークでBLUEmedを評価します。実験結果は、BLUEmedが少数ショット・プロンプトで最良の精度（69.13%）、ROC-AUC（74.45%）、PR-AUC（72.44%）を達成し、単一エージェントのRAGおよび討論のみのベースラインのいずれも上回ることを示しています。さらに6つのバックボーン・モデルと2つのプロンプト戦略にわたる追加分析により、検索拡張（retrieval augmentation）と構造化された討論は相補的であり、このフレームワークは十分な指示追従能力と臨床言語理解能力を備えたモデルから特に大きな恩恵を受けることが確認されました。