arg-VU: ロボット手術における視覚理解のための、物理を考慮した3Dジオメトリによるアフォーダンス推論

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

全体として、本研究は、物理を考慮した3D表現が、変形を伴う手術環境における信頼性の高いアフォーダンス推論を改善し、それによって身体性のあるロボットによる相互作用を支援し得ることを主張している。

概要: 可能性（アフォーダンス）推論は知覚と行動を原理的に結び付けますが、外科ロボティクスでは十分に検討されていません。外科ロボティクスでは組織が高度に変形可能で、コンプライアントであり、かつツールの運動と動的に結合しています。本稿では、arg-VUを提示します。arg-VUは、時間的に一貫した幾何学のトラッキングと、拘束に誘導される機械的モデリングを統合した、物理を意識したアフォーダンス推論フレームワークです。外科シーンは3Dガウス・スプラッティング（3DGS）を用いて再構成され、時間的に追跡されたサーフェス表現へ変換されます。拡張ポジションベース・ダイナミクス（XPBD）は局所変形の拘束を埋め込み、拘束の感度によって局所的な拘束マニフォールドの幾何を捉える、代表的な幾何ポイント（RGPs）を生成します。SE(3)上のロボットツール姿勢を組み込むことで、RGPsに対する剛体的に誘起された変位を計算し、そこから2つの補完的な指標を導出します。すなわち、局所変形拘束に関する機械的な実現可能性を評価する物理を意識したコンプライアンス・エネルギーと、運動アラインメント（運動学的なモーションのベースラインとして）を捉える位置一致スコアです。外科ビデオデータセットでの実験により、arg-VUは運動学的ベースラインよりも、より安定的で物理的に整合的かつ解釈可能なアフォーダンス予測をもたらすことが示されました。これらの結果は、物理を意識した幾何学的表現が、変形可能な外科環境に対する信頼性の高いアフォーダンス推論を可能にし、身体性を持つロボットの相互作用を支えることを示しています。

Black Hat Asia

AI Business

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

日経XTECH

単に役立つオープンソースの貢献者

Reddit r/LocalLLaMA

韓国のAIチップメーカー、推論向けに4億ドルを調達

AI Business

Ollamaはプレビュー版で、Apple Silicon上でMLXにより駆動されるようになりました

Dev.to

arg-VU: ロボット手術における視覚理解のための、物理を考慮した3Dジオメトリによるアフォーダンス推論

要点

関連記事

Black Hat Asia

トヨタ車体富士松工場、構内運搬車を10年越しでレベル4自動運転化

単に役立つオープンソースの貢献者

韓国のAIチップメーカー、推論向けに4億ドルを調達

Ollamaはプレビュー版で、Apple Silicon上でMLXにより駆動されるようになりました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer