A 4D Representation for Training-Free Agentic Reasoning from Monocular Laparoscopic Video

arXiv cs.CV / 4/2/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 提案論文では、単眼の腹腔鏡手術動画から「明示的な4D(時間+3D空間)表現」を構築し、AIエージェントの時空間推論を自然言語に“4Dグラウンディング”させる枠組みを示しています。
  • 4D表現は、点追跡・深度推定・セグメンテーションなどの2Dコンピュータビジョンモデルを組み合わせ、時間的にも空間的にも一貫したツール/組織のセマンティクスを生成することに焦点を当てています。
  • マルチモーダルLLM(MLLM)は微調整なしで、4D表現から導出したツール(例:軌跡)を使ってエージェントとして推論する設計になっています。
  • 新たに作成した臨床的に関連する質問134件の評価で、汎用推論バックボーンと4D表現の組み合わせが時空間理解を大きく改善し、4Dグラウンディングを可能にしたと報告しています。
  • コード・データ・例が公開されており(tum-ai.github.io/surg4d/)、手術領域での学習フリーなエージェント的推論の実装可能性を示唆しています。

Abstract

Spatiotemporal reasoning is a fundamental capability for artificial intelligence (AI) in soft tissue surgery, paving the way for intelligent assistive systems and autonomous robotics. While 2D vision-language models show increasing promise at understanding surgical video, the spatial complexity of surgical scenes suggests that reasoning systems may benefit from explicit 4D representations. Here, we propose a framework for equipping surgical agents with spatiotemporal tools based on an explicit 4D representation, enabling AI systems to ground their natural language reasoning in both time and 3D space. Leveraging models for point tracking, depth, and segmentation, we develop a coherent 4D model with spatiotemporally consistent tool and tissue semantics. A Multimodal Large Language Model (MLLM) then acts as an agent on tools derived from the explicit 4D representation (e.g., trajectories) without any fine-tuning. We evaluate our method on a new dataset of 134 clinically relevant questions and find that the combination of a general purpose reasoning backbone and our 4D representation significantly improves spatiotemporal understanding and allows for 4D grounding. We demonstrate that spatiotemporal intelligence can be "assembled" from 2D MLLMs and 3D computer vision models without additional training. Code, data, and examples are available at https://tum-ai.github.io/surg4d/