DepthPilot：大腸内視鏡動画生成における「制御可能性」から「解釈可能性」へ

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、生成結果を物理的事前知識や臨床的に妥当な表現へ整合させることを目指した、大腸内視鏡動画生成のための解釈可能フレームワーク「DepthPilot」を提案する。
DepthPilotは、事前分布の整合化戦略により幾何学的整合性を高め、パラメータ効率の高い微調整を通じて拡散モデルのバックボーンに深度制約を組み込む。
幾何学的制約のもとでの複雑な時空間ダイナミクスをより適切に捉えるため、適応型スプライン・デノイジング・モジュールを導入し、固定の線形重みを学習可能なスプライン関数に置き換える。
複数の公開データセットと社内の臨床データでの評価では、FIDスコアが全指標で15未満であることや、臨床医評価で1位となることが示され、臨床的な信頼性の向上が示唆される。
さらに、生成動画は信頼できる3D再構成の基盤として活用され、手術ナビゲーションや死角領域の同定を支援し、将来的には大腸領域のワールドモデル構築へつながることが期待されている。

概要: 制御可能な医療ビデオ生成は目覚ましい進歩を遂げているものの、依然として解釈可能性に欠けており、生成された内容を物理的な事前知識（physical priors）と整合させ、かつ忠実な臨床的表現を反映することが必要です。単なる制御可能性から解釈可能性へと境界を押し広げるために、我々は大腸内視鏡ビデオ生成のための最初の解釈可能フレームワークであるDepthPilotを提案します。本研究は、2つの相乗的なパラダイムを通じて、信頼できる生成に向けた一歩を踏み出します。明示的な幾何学的基盤を実現するため、DepthPilotは事前分布アラインメント戦略を考案し、パラメータ効率の良い微調整（parameter-efficient fine-tuning）により拡散バックボーンへ深度制約を注入することで、解剖学的な忠実性を保証します。これらの幾何学的制約の下で内在する非線形モデリングを強化するために、DepthPilotは適応型スプライン・デノイジング・モジュールを採用し、固定の線形重みを学習可能なスプライン関数に置き換えることで、複雑な時空間ダイナミクスを捉えます。3つの公開データセットと院内臨床データにわたる大規模な評価により、DepthPilotが物理的に整合したビデオを頑健に生成できることが確認されます。すべてのベンチマークでFIDスコア15未満を達成し、さらに臨床医による評価で1位を獲得し、「見た目が現実的」なものと「臨床的に解釈可能」なもののギャップを埋めます。加えて、DepthPilotが生成したビデオは、信頼性の高い3D再構成を可能にし、手術ナビゲーションや死角領域の同定を促進すると期待され、さらに大腸のワールドモデルに向けた基盤としても機能します。