HealthAdminBench：医療アドミニストレーションタスクにおけるコンピュータ利用エージェントの評価

arXiv cs.AI / 2026/4/14

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、LLMベースのコンピュータ利用エージェントを、エンドツーエンドの医療アドミニストレーションGUIワークフローで評価するための新しいベンチマーク「HealthAdminBench」を提案する。
このベンチマークは、現実的な4つのインターフェース（EHR、支払者ポータル2つ、ファックスシステム）を対象とし、事前承認、異議申立て／却下（デノール）管理、DME注文処理の3領域にわたって135のきめ細かなタスクを扱う。
7つのエージェント構成における結果から、信頼性に関するギャップが継続的に存在することが示される。サブタスクの性能が高い場合でも、エンドツーエンドのタスク成功率は低い。
報告されている最良のエンドツーエンド実行者は、Claude Opus 4.6 CUAでタスク成功率36.3%である。一方、サブタスク成功率が最も高いのはGPT-5.4 CUAで82.8%を達成している。
HealthAdminBenchは、医療の事務（アドミニストレーション）業務を安全かつ信頼性の高い自動化へと進めるための、より厳密な評価基盤を提供することを目指している。

要旨: 医療の事務（ヘルスケア管理）は年間で10億ドル（$1 trillion）超の支出を占めており、LLMベースのコンピュータ利用エージェント（CUA）にとって有望なターゲットとなっています。LLMの臨床応用は大きな注目を集めている一方で、CUAをエンドツーエンドの事務ワークフローで評価するためのベンチマークは存在しません。このギャップに対処するため、現実的なGUI環境4つから成るベンチマーク「HealthAdminBench」を導入します。具体的には、EHR、ペイヤー・ポータル2つ、ファックスシステムです。そして、3種類の事務タスクタイプにまたがる135の専門家定義タスク（Prior Authorization、Appeals and Denials Management、Durable Medical Equipment（DME）Order Processing）を含みます。各タスクは細粒度で検証可能なサブタスクに分解され、1,698の評価ポイントが得られます。複数のプロンプトおよび観測設定のもとで7つのエージェント構成を評価した結果、サブタスクにおける性能が高いにもかかわらず、エンドツーエンドの信頼性は依然として低いことが分かりました。最も性能の高いエージェント（Claude Opus 4.6 CUA）でもタスク成功率は36.3パーセントにとどまり、GPT-5.4 CUAはサブタスク成功率として最も高い82.8パーセントを達成します。これらの結果は、現在のエージェント能力と、実世界の事務ワークフローが要求するものとの間に大きな隔たりがあることを示しています。HealthAdminBenchは、医療の事務ワークフローを安全かつ信頼性のある形で自動化するための進展を評価するための、厳密な基盤を提供します。