医用画像において動画モデルはゼロショット学習者／推論者として台頭しているのか？

arXiv cs.CV / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、医療データでの学習なしに、拡張された大規模生成モデルと同様のスケーリングを行った自己回帰の動画モデリングが医用画像へゼロショットで汎化できるかを検証しています。
大規模ビジョンモデル（LVM）を、臓器セグメンテーション、ノイズ除去、超解像、モーション予測の4つの代表的な医療画像タスクで評価したところ、ドメイン別の微調整なしでも競争力のある性能が示されました。
放射線治療のモーション予測では、モデルが4D CTの過去位相から将来の3D CT位相を直接予測し、解剖学的に整合した出力と、患者固有の呼吸ダイナミクスを捉えつつ、現実的な時間的な一貫性を伴う予測を実現しています。
実験には122人の患者の4D CTデータ（1,820体超の3D CTボリューム）を用い、モーション予測ではDVFベースおよび生成系の専門ベースラインを上回って空間精度で最先端（SOTA）に到達しました。
総じて、医用動画モデリングにおけるゼロショット能力の出現が示され、動画モデルを基盤とする統一的な医療用ファウンデーションモデルへの可能性が示唆されています。

要旨: 大規模な生成モデルに関する最近の進展により、適切にスケールすることで、単純な自己回帰的定式化が領域をまたいだ強力なゼロショット汎化を示し得ることが分かってきました。この流れを動機として、モデルが医療データで一切学習されていないにもかかわらず、自己回帰型の動画モデリングの原理を医用画像タスクに直接適用できるかどうかを検討します。具体的には、4つの代表的タスク、すなわち器官セグメンテーション、デノイジング、超解像、モーション予測において、大規模視覚モデル（LVM）をゼロショット設定で評価します。驚くべきことに、領域固有の微調整を行わなくても、LVMはCTスキャン上の解剖学的構造を描出でき、セグメンテーション、デノイジング、超解像の各タスクで競争力のある性能を達成します。とりわけ、放射線治療におけるモーション予測では、4D CTスキャンの過去の位相から、将来の3D CT位相を直接予測し、患者固有の呼吸ダイナミクスを捉えつつ、生理学的に整合した予測を行います。さらに、時間的な連続性も現実的で一貫しています。122人の患者から得られた4D CTデータ（合計で1,820を超える3D CTボリューム）でLVMを評価します。医療データに関する事前の接触は一切ないにもかかわらず、モデルは全タスクにおいて強い性能を示し、モーション予測では、DVFベースおよび生成モデルを用いた専門的ベースラインを上回り、空間精度において最先端の結果を達成します。これらの結果は、医用動画モデリングにおけるゼロショット能力の出現を示すとともに、汎用的な動画モデルが統一的な学習者および推論者として機能し、動画モデルに基づいて構築される将来の医療基盤モデルの土台を築き得る可能性を明らかにします。