要旨: 行動ヘルスおよび精神医学領域における新興のAIシステムでは、希死念慮リスクの評価や抑うつのスクリーニングのようなタスクに対して、多段またはマルチエージェントのLLMパイプラインが用いられています。しかし、LLM-as-a-judgeのような一般的な評価手法は、意思決定がいつ信頼できるのか、また複数のLLM判定にまたがって誤りがどのように蓄積し得るのかを示しません。そのため、安全性が重要な領域への適用には限界があります。私たちは、ディレクテッド・エーシクリック・グラフ(DAG)として構造化されたマルチエージェント・パイプラインに対する統計的枠組みを提示し、原理に基づく適応的意思決定によって、ヒューリスティックな投票への代替を提供します。各エージェントを確率的なカテゴリ選択(stochastic categorical decision)としてモデル化し、(1) より厳密なエージェント単位の性能信頼区間、(2) 入力の難易度に基づくバンディット型の適応的サンプリング戦略、(3) 配備時に対数的な誤り増加を示すマルチエージェント・システムに対する後悔(regret)の保証、を導入します。私たちは、このシステムを行動ヘルスのラベル付きデータセット2つで評価します。すなわち、AEGIS 2.0行動ヘルスのサブセット(N=161)と、SWMH Reddit投稿の層化抽出サンプル(N=250)です。実験的に、私たちの適応的サンプリング戦略は、両データセットにおけるあらゆる条件の中で最も低い偽陽性率を達成し、AEGIS 2.0では単一エージェントモデルの0.159に対して0.095となりました。これにより、安全なコンテンツへの誤ったフラグ付けを40
%削減しつつ、すべての条件で偽陰性率は同程度のまま維持されました。これらの結果は、この設定において、原理に基づく適応的サンプリングが想起(recall)を低下させることなく適合率(precision)を有意に改善し得ることを示唆しています。
適応型マルチエージェントLLMシステムによる信頼性の高い自傷リスク・スクリーニング
arXiv cs.AI / 2026/4/27
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、自傷リスクや抑うつのスクリーニングで用いられる「LLM-as-a-judge」の評価手法が、判断の信頼性を示したり複数のLLM判断で誤りがどのように蓄積するかを説明したりできないため、安全性が重要な用途には不十分だと指摘しています。
- 研究では、マルチエージェントLLMパイプラインをDAG(有向非巡回グラフ)として表現し、各エージェントを確率的なカテゴリ決定としてモデル化したうえで、ヒューリスティックな多数決の代わりに原理に基づく適応的意思決定を行う統計フレームワークを提案します。
- 提案手法は、エージェント単位の性能に関するより厳密な信頼区間、入力の難しさに基づいてサンプリング量を調整するバンディット型の適応戦略、さらに運用時の誤り成長が対数的であることを示すレグレット保証を含みます。
- 行動・精神保健の2つのデータセット(AEGIS 2.0, N=161、SWMH Redditの層化サンプル, N=250)で評価した結果、誤検知率(false positive rate)が大幅に低下し、偽陰性率(false negative)を同程度に保ったまま適切性(precision)を改善し、AEGIS 2.0では安全な内容の誤フラグ付けを約40%削減しました。
- 総じて、適応サンプリングが、評価された条件のもとで行動・精神保健領域のリスクスクリーニングにおける信頼性/精度を実質的に高め得ることを示しています。



