概要: 臨床推論には、患者の病歴の収集、検査の指示、結果の解釈、安全な治療判断といった多段階の相互作用が必要です。しかし、統一された学習環境では、臨床領域の幅と、強化学習によって汎化可能な医療AIエージェントを訓練するための専門ツールが提供される一方で、そのような一般化可能な医療AIエージェントを訓練するための統一的な環境として確立することは依然として困難です。私たちは、
gym{}
に基づく、医療AIにおけるマルチターンのエージェント型強化学習(RL)の包括的な経験的研究を提示します。これは、10の臨床ドメインにまたがる、gymnasium対応の環境で構築されており、3.6K+のタスク、135のドメイン固有ツール、そして828Kの医療関連パッセージからなる知識ベースを備えています。分析の結果、エージェント型のマルチターン構造は、冗長な単一ターンの独白へと劣化することが分かりました。具体的には、単調な長さの爆発を伴い、同時にツール使用頻度が低下します。私たちは、この崩壊が、蒸留(distillation)の不安定性とともに、疎な終端報酬が逐次的な臨床の軌跡と整合していないことに起因することを明らかにします。一部のベンチマークではバニラGRPOが高い最終精度を達成するものの、応答長の大きな振動と収束までの長い期間によって示されるように、学習の不安定さに悩まされます。学習効率と安定性を改善するために、ターンレベルの切り詰めオンポリシー蒸留(Turn-level Truncated On-Policy Distillation: TT-OPD)を提案します。これは、勾配不要のEMA教師(self-distillation)であり、アウトカムに特権的な情報を活用して、会話の各ターンごとに密な、アウトカムを意識したKL正則化を提供します。TT-OPDは、18のベンチマークのうち10で最高の性能を達成し、非RLベースラインに対して平均+3.9~ppの改善をもたらします。さらに、早期収束の高速化、応答長の制御、そしてマルチターンでのツール使用の継続により、この効果が裏付けられています。




