最適化された資源制約下の非薬物介入を階層強化学習で多クラスター outbreak を制御する

arXiv cs.LG / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、複数の非同期アウトブレイク・クラスターにわたる希少な非薬物介入（NPI）の割り当てを、階層強化学習フレームワークを用いて扱う。
問題を制約付きレスタレス・マルチアームドバンディットとして定式化し、グローバルなアクションコスト倍率を学習してグローバル資源需要を形成するグローバルコントローラと、各クラスター内で資源配分の限界価値を推定する局所ポリシーを併設した手法を提案する。
このフレームワークは、現実的なエージェントベースのSARS-CoV-2シミュレータで評価され、RMAB由来の手法やヒューリスティックなベースラインを上回る20〜30%の改善を、さまざまなシステム規模と検査予算で示した。
さらに、このアプローチは最大で40個の同時に活性なクラスターまでスケールし、RMAB由来の手法よりも意思決定を高速化する。

要旨: 非薬物的介入（NPIs）は、診断検査や検疫など、感染症の流行を抑制するうえで極めて重要ですが、初期の発生段階では特に限られた資源によってしばしば制約されます。実世界の公衆衛生の現場では、資源は非同期に出現する複数の発生クラスター全体に配分されなければならず、それぞれが規模とリスクの点で異なり、共通の資源予算を競合します。ここで、クラスターとは、単一の感染者を起点とする密接接触者のグループに対応します。したがって、意思決定は不確実性と異質な需要の下で行われるべきであり、同時に運用上の制約を尊重する必要があります。私たちはこの問題を制約付きリストレス型マルチアームドバンディット問題として定式化し、階層的強化学習フレームワークを提案します。グローバルコントローラは、全体の資源需要を調整する連続的なアクションコスト乗数を学習し、一方で一般化されたローカルポリシーは、各クラスター内の個人に資源を割り当てることの限界価値を推定します。提案されたフレームワークを、動的に到着するクラスターを備えたSARS-CoV-2の現実的なエージェントベースシミュレーターで評価します。広範なシステム規模と検査予算の範囲にわたって、私たちの方法はRMAB由来の手法およびヒューリスティックなベースラインを一貫して上回り、流行の抑制効果を20%〜30%改善します。最大40個の同時にアクティブなクラスターでの実験は、階層的フレームワークが非常にスケーラブルで、RMAB由来の手法よりも意思決定を迅速化できることをさらに示しています。