RadAgent:胸部CTを段階的に解釈するためのツール利用型AIエージェント

arXiv cs.AI / 2026/4/17

📰 ニュースTools & Practical UsageModels & Research

要点

  • RadAgentは、最終出力だけでなく段階的で解釈可能な推論で胸部CTレポートを生成する、ツールを利用するAIエージェントです。
  • 臨床医が各所見がどのように導かれたかを検証・修正できるように、意思決定とツール操作の解釈可能なトレースを提供します。
  • 実験では、RadAgentが3Dビジョン言語モデルのベースライン(CT-Chat)を上回り、マクロF1が6.0ポイント、マイクロF1が5.4ポイント改善しました。
  • RadAgentは敵対的条件下での頑健性も高く(24.7ポイント増)、ベースラインにはない忠実性(faithfulness)で37.0%を達成しています。
  • 全体として、ツールを補助した反復的推論を明示的に構造化することで、放射線診断におけるAIの透明性と信頼性の向上を目指しています。

Abstract

視覚と言語のモデル(VLM)は、コンピュータ断層撮影(CT)のような複雑な医用画像の、AI駆動による解釈とレポーティングを大きく前進させてきました。しかし、既存手法の多くは、臨床家を最終出力の受動的な観察者にとどめており、検査・検証・改善のために参照できる解釈可能な推論の痕跡(トレース)を提供していません。これに対処するために、我々はRadAgentを提案します。RadAgentは、段階的かつ解釈可能なプロセスによりCTレポートを生成する、ツールを用いるAIエージェントです。生成される各レポートには、中間の判断およびツール操作の完全に検査可能なトレースが付属しており、臨床家が報告された所見がどのように導出されたかを確認できます。実験の結果、RadAgentは、3D VLMの対応モデルであるCT-Chatと比べて、3つの次元すべてにおいて胸部CTレポート生成を改善することを観察しました。臨床精度は、macro-F1で6.0ポイント(相対36.4%)向上し、micro-F1で5.4ポイント(相対19.6%)向上しました。敵対的条件下での頑健性は、24.7ポイント(相対41.9%)改善しました。さらにRadAgentは、忠実性(faithfulness)で37.0%を達成しており、これはその3D VLMの対応モデルにはまったく欠けていた新しい能力です。胸部CTの解釈を、明示的で、ツールによって拡張され、反復的な推論トレースとして構造化することで、RadAgentは放射線診断における、透明で信頼できるAIへと近づけます。