要約: 医療AIシステムには2つの基本的な制約があります。1つ目は、従来の視覚-言語モデル(VLM)が単一パスの推論を行うため、監査や臨床的な用語での説明ができないブラックボックス予測になってしまうことです。2つ目は、中間ステップを開示する反復推論システムが、固定された反復予算に依存しており、単純なケースでは計算資源を無駄にする一方で、複雑なケースでは十分な深さを提供できないことです。私たちは、これら両方の制約を統一的な枠組みで解決します。RVLMは、単一パスの推論を、反復的な「生成-実行」ループに置き換えます。各ステップで、モデルはPythonコードを書き、視覚サブエージェントを呼び出し、画像を操作し、そして証拠を蓄積します。すべての診断上の主張は、実行可能なコードに裏付けられており、臨床AIガバナンスの枠組みに求められる監査可能性の要件を満たします。RRouterは、反復の深さを適応的にします。軽量なコントローラがタスク複雑性の特徴から最適な予算を予測し、その後進捗を監視して、推論が停滞した場合には早期に終了します。私たちは、微調整なしでGemini 2.5 Flashを用いて、BraTS 2023の髄膜腫(脳MRI)とMIMIC-CXR(胸部X線)で評価します。反復実行を通じて、RVLMは重要な所見(例:腫瘤の存在や造影)に関して高い一貫性を示し、Fluid-Attenuated Inversion Recovery(FLAIR)の信号特性とセグメンテーション境界の間におけるモダリティ間の不一致も検出できます。MIMIC-CXRでは、構造化されたレポートを生成し、撮影ビュー固有のアーティファクトを正しく認識します。コード: https://github.com/nican2018/rvlm。
RVLM:適応的デプスを備えた再帰型ビジョン・ランゲージモデル
arXiv cs.CV / 2026/3/26
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- RVLM(Recursive Vision-Language Models)は、診断上の主張を反復的なgenerate-executeループ内で実行可能なPythonコードに基づけることで、監査可能性と説明可能性を高める医療向けビジョン・ランゲージAIの統一フレームワークとして提案される。
- 本手法では、各ステップで視覚サブエージェントを用いて画像を操作し、証拠を蓄積することで、従来の単発(シングルパス)のVLM推論を置き換え、より透明性の高い推論プロセスを実現する。
- RRouterは、軽量なコントローラによってタスク複雑性の特徴から最適な推論予算を予測し、進捗が停滞した場合は早期終了することで、無駄な計算を削減する適応的な反復深度を導入する。
- Gemini 2.5 Flashを用いたBraTS 2023の髄膜腫(脳MRI)およびMIMIC-CXR(胸部X線)での実験(微調整なし)により、主要所見の一貫した検出と、モダリティ間の不一致を同定できること、さらに放射線科タスク向けの構造化レポート生成が示される。
- 著者らは公開リポジトリでコードを提供しており、監査しやすく適応的デプスを備えた医療VLMアプローチの再現性とさらなる評価が可能になる。