単一のパネルではすべてに対応できない：臨床予測のためのケース適応型マルチエージェント熟慮

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMベースの臨床予測が、ケース単位の異質性によって影響を受けることを主張する。すなわち、複雑な症例では、わずかなプロンプト変更だけで出力が分岐してしまう。
それに対し、CAMP（Case-Adaptive Multi-agent Panel）を提案する。ここでは、担当医（attending-physician）エージェントが、各症例の診断における不確実性に基づいて、専門家パネルを動的に編成する。
専門家は3値投票（KEEP/REFUSE/NEUTRAL）を用い、自身の専門外に該当するケースでは、原理に基づく棄権（abstention）を支援する。
ハイブリッドなルーティング機構により、強いコンセンサス、担当医へのフォールバック、または投票数だけでなく議論の質を重み付けするエビデンスベースの裁定のいずれかを選択する。
診断予測および4つのLLMバックボーンを用いた短い入院経過生成に関するMIMIC-IVでの実験では、CAMPは強力なベースラインを上回りつつ、より少ないトークン数で動作する。さらに、投票／裁定のトレースにより意思決定の監査（decision audits）が可能になる。

Abstract

臨床予測に適用された大規模言語モデルは、症例レベルの異質性を示す。単純な症例では出力が一貫する一方で、複雑な症例では、わずかなプロンプト変更のもとで予測が分岐する。既存の単一エージェント戦略は、1つの役割に条件付けられた分布からサンプリングし、多エージェントの枠組みでは固定された役割とフラットな多数決を用いて意見の不一致時に診断上のシグナルを捨ててしまう。そこで我々は、CAMP（Case-Adaptive Multi-agent Panel）を提案する。これは、担当医（attending-physician）エージェントが、各症例の診断上の不確実性に応じて、その都度最適化された専門家パネルを動的に構成する手法である。各専門家は、3値投票（KEEP/REFUSE/NEUTRAL）によって候補を評価することで、自身の専門外では、根拠に基づく棄権（abstention）を可能にする。ハイブリッド・ルータは、各診断を、強いコンセンサスによる裁定、担当医の判断へのフォールバック、あるいは投票数ではなく議論の質を重み付けするエビデンスに基づく仲裁のいずれかへと導く。MIMIC-IVを用いた診断予測と短い入院経過生成を、4つのLLMバックボーン上で行った結果、CAMPは強力なベースラインを一貫して上回り、競合する多エージェント手法の多くよりも少ないトークン消費で達成した。さらに、投票記録と仲裁の痕跡（traces）により、意思決定の監査が透明に可能となる。

Black Hat Asia

AI Business

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

AI-SCHOLAR

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

日経XTECH

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

GIGAZINE

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

Zenn

単一のパネルではすべてに対応できない：臨床予測のためのケース適応型マルチエージェント熟慮

要点

Abstract

関連記事

Black Hat Asia

StrongSORT: DeepSORTが強くなって帰ってきた！アップグレードされた追尾モデル！

話題のコンテキストエンジニアリング、日本企業が後れを取る根深い理由

流出したコードからClaude Codeの仕組みをすべて解析し知られざる機能を見やすくまとめた「Claude Code Unpacked」、未公開機能などをソースコードから直接マッピング

【徹底解説】クロスエージェントメモリとは？AIがツールとセッションを超えて文脈を共有する仕組み

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer