単眼の腹腔鏡動画から学習不要のエージェント的推論を行うための4D表現

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

提案論文では、単眼の腹腔鏡手術動画から「明示的な4D（時間+3D空間）表現」を構築し、AIエージェントの時空間推論を自然言語に“4Dグラウンディング”させる枠組みを示しています。
4D表現は、点追跡・深度推定・セグメンテーションなどの2Dコンピュータビジョンモデルを組み合わせ、時間的にも空間的にも一貫したツール/組織のセマンティクスを生成することに焦点を当てています。
マルチモーダルLLM（MLLM）は微調整なしで、4D表現から導出したツール（例：軌跡）を使ってエージェントとして推論する設計になっています。
新たに作成した臨床的に関連する質問134件の評価で、汎用推論バックボーンと4D表現の組み合わせが時空間理解を大きく改善し、4Dグラウンディングを可能にしたと報告しています。
コード・データ・例が公開されており（tum-ai.github.io/surg4d/）、手術領域での学習フリーなエージェント的推論の実装可能性を示唆しています。