医療エージェント向けヘルスケアAI GYM

arXiv cs.LG / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、Gymnasium対応の統合RL学習環境を提案し、10の臨床領域、3.6K以上のタスク、135の医療ツール、828K件の医療知識ベースをカバーして医療AIエージェントを訓練できるようにした。
著者らは、素朴なマルチターンのエージェント型RLが、応答が過度に長い冗長な「独白」的な単発ターンへ崩壊することを発見し、応答長の単調な増大とツール利用頻度の低下が同時に起きることを示した。
この崩壊と蒸留の不安定化は、臨床の逐次的な軌跡に対して、疎な終端報酬が適切に整合していないことに起因すると分析している。
vanilla GRPOは一部ベンチマークで高い最終精度を達成する一方、応答長の振動や収束の遅さといった学習不安定性が見られる。
改善策として Turn-level Truncated On-Policy Distillation（TT-OPD）を提案し、EMA教師とアウトカムに特権的な情報を用いて会話の各ターンごとに密な結果指向のKL正則化を加えることで、18ベンチマーク中10件で平均+3.9ppの改善と、早期収束の高速化、応答長の制御、継続的なマルチターンのツール使用を実現した。

概要: 臨床推論には、患者の病歴の収集、検査の指示、結果の解釈、安全な治療判断といった多段階の相互作用が必要です。しかし、統一された学習環境では、臨床領域の幅と、強化学習によって汎化可能な医療AIエージェントを訓練するための専門ツールが提供される一方で、そのような一般化可能な医療AIエージェントを訓練するための統一的な環境として確立することは依然として困難です。私たちは、

gym{}

に基づく、医療AIにおけるマルチターンのエージェント型強化学習（RL）の包括的な経験的研究を提示します。これは、10の臨床ドメインにまたがる、gymnasium対応の環境で構築されており、3.6K+のタスク、135のドメイン固有ツール、そして828Kの医療関連パッセージからなる知識ベースを備えています。分析の結果、エージェント型のマルチターン構造は、冗長な単一ターンの独白へと劣化することが分かりました。具体的には、単調な長さの爆発を伴い、同時にツール使用頻度が低下します。私たちは、この崩壊が、蒸留（distillation）の不安定性とともに、疎な終端報酬が逐次的な臨床の軌跡と整合していないことに起因することを明らかにします。一部のベンチマークではバニラGRPOが高い最終精度を達成するものの、応答長の大きな振動と収束までの長い期間によって示されるように、学習の不安定さに悩まされます。学習効率と安定性を改善するために、ターンレベルの切り詰めオンポリシー蒸留（Turn-level Truncated On-Policy Distillation: TT-OPD）を提案します。これは、勾配不要のEMA教師（self-distillation）であり、アウトカムに特権的な情報を活用して、会話の各ターンごとに密な、アウトカムを意識したKL正則化を提供します。TT-OPDは、18のベンチマークのうち10で最高の性能を達成し、非RLベースラインに対して平均+3.9~ppの改善をもたらします。さらに、早期収束の高速化、応答長の制御、そしてマルチターンでのツール使用の継続により、この効果が裏付けられています。