単眼の腹腔鏡動画から学習不要のエージェント的推論を行うための4D表現
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 提案論文では、単眼の腹腔鏡手術動画から「明示的な4D(時間+3D空間)表現」を構築し、AIエージェントの時空間推論を自然言語に“4Dグラウンディング”させる枠組みを示しています。
- 4D表現は、点追跡・深度推定・セグメンテーションなどの2Dコンピュータビジョンモデルを組み合わせ、時間的にも空間的にも一貫したツール/組織のセマンティクスを生成することに焦点を当てています。
- マルチモーダルLLM(MLLM)は微調整なしで、4D表現から導出したツール(例:軌跡)を使ってエージェントとして推論する設計になっています。
- 新たに作成した臨床的に関連する質問134件の評価で、汎用推論バックボーンと4D表現の組み合わせが時空間理解を大きく改善し、4Dグラウンディングを可能にしたと報告しています。
- コード・データ・例が公開されており(tum-ai.github.io/surg4d/)、手術領域での学習フリーなエージェント的推論の実装可能性を示唆しています。




