要旨: 最先端の大規模言語モデル(LLM)は、一般的な視覚質問応答において高い性能を示している。しかし、根本的な制約が依然として残っている。すなわち、現行のアーキテクチャは、CTやMRIといった体積医用画像の直接解析に必要なネイティブな3D空間推論を備えていないのである。新たに登場したエージェント型AIは、専門化された外部ツールを活用し、LLMにそれらを統括させることで、固有の3D処理を不要にする新しい解決策をもたらす。とはいえ、複雑で多段階の放射線学的ワークフローにおいて、こうしたエージェント型フレームワークが実現可能かどうかは、十分に検討されていない。本研究では、脳MRI解析のためのトレーニング不要なエージェント型パイプラインを提示する。市販の領域特化ツールを用いて、複数のLLM(GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5)で手法を検証したところ、当システムは前処理(頭蓋骨除去、レジストレーション)、病理セグメンテーション(グリオーマ、髄膜腫、転移)、体積解析を含む、複雑なエンドツーエンドのワークフローを自律的に実行できた。さらに、単一スキャンのセグメンテーションおよび体積レポーティングから、複数時点の比較を要する縦断的な反応評価に至るまで、放射線学的タスクの複雑性が増すにつれて、当フレームワークを評価する。加えて、単一エージェントモデルと、複数エージェントの「領域エキスパート」連携を比較することで、アーキテクチャ設計が与える影響を分析する。最後に、将来のエージェント型システムを厳密に評価するために、公的なBraTSデータに由来する画像-プロンプト-回答のベンチマークデータセットを新たに導入し、公開する。本研究の結果は、エージェント型AIが、学習や微調整を行う必要なく、ツール利用によって高度に神経放射線学的な画像解析タスクを解決できることを示している。
訓練不要のエージェント型大規模言語モデルによる、神経放射線画像解析
arXiv cs.CV / 2026/4/21
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- この論文は、現在のLLMベースのビジュアルQAが抱える重要な制約として、CTやMRIのような体積医用画像を直接解析するために必要な3D空間推論をネイティブに備えていない点を指摘しています。
- 著者らは、LLMが外部の専門ツールをオーケストレーションする「訓練不要」のエージェント型パイプラインを提案し、脳MRIの前処理、病変セグメンテーション、体積解析までのエンドツーエンド手順を自動化します。
- GPT-5.1、Gemini 3 Pro、Claude Sonnet 4.5と複数のLLMに対して、既製の神経放射線向けツールを用いて手法を検証し、単一スキャンのセグメンテーションから多時点比較を含む縦断的な反応評価まで、複雑度の高いタスクで評価しています。
- アーキテクチャ上の選択として、単一エージェント構成と「ドメインエキスパート」型のマルチエージェント協調を比較し、設計が性能に与える影響を分析しています。
- 将来のエージェント型システムを厳密に評価できるようにするため、公的なBraTSデータから作成した画像-プロンプト-回答タプルのベンチマークデータセットも公開しています。




