要旨: 目的: 自動Cアーム位置決めは、緊急の介入を必要とする患者において、適時の治療を保証する。Cアーム制御に対する従来の深層学習(DL)アプローチが失敗した場合、臨床医は手動操作に戻らざるを得ず、その結果さらなる遅延が生じる。したがって、多モーダル大規模言語モデル(MLLMs)に基づくエージェント型のCアーム制御フレームワークは、臨床医からのフィードバックを取り込み、推論によってより正確な位置決めに向けて調整できるため、非常に望ましい。Cアーム制御には骨格ランドマークの局在化が不可欠であり、本研究では自律的なランドマーク局在化のためにMLLMを適応することを検討する。
方法: 注釈付きの合成X線データセットと実データセットを用いた。両データセットに含まれる各X線は、複数の骨格ランドマークと対応づけられている。2つのMLLMを微調整し、それらに対して各X線から最も近いランドマークを取得させた。ランドマーク局在化の定量的評価を実施し、主要なDLアプローチと比較した。さらに、次のことを示す質的実験も行った: (1)MLLMが推論によって、当初誤った予測をどのように修正できるか、(2)MLLMが目標位置へ向けてCアームを逐次的にナビゲートできるか。
結果: 2つのデータセットのいずれにおいても、微調整したMLLMは、DLアプローチと比較して、すべての局在化タスクにわたり競争力のある性能を示した。質的実験において、MLLMは推論と空間的認識の証拠を提示した。
結論: 本研究は、微調整したMLLMが正確な骨格ランドマーク局在化を達成できること、そしてエージェント型の自律Cアーム制御に向けた有望性を示す。私たちのコードは https://github.com/marszzibros/C-arm-localization-LLMs.git で利用可能である
エージェント型Cアーム制御に向けた自律的な骨格ランドマーク位置特定
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、従来の深層学習によるCアーム制御が失敗した際に発生する治療遅延を問題視し、マルチモーダルLLMを用いて臨床医のフィードバックと推論を取り込み、より正確な位置決めを行うエージェント型フレームワークを提案しています。
- 骨格ランドマークの位置特定はCアーム制御に必須であるため、本研究ではマルチモーダル大規模言語モデルをランドマークの自律的な位置特定へ適用することを検討しています。
- 著者らは、注釈付きの合成X線データと実X線データの両方を用いて2つのMLLMを微調整し、各画像から最も近い骨格ランドマークを取得する課題に取り組みました。
- 定量評価では、微調整したMLLMが位置特定タスク全般で最先端のDL手法に対して競争力のある性能を示し、定性的実験では誤った予測を推論で修正することや、目標位置へ向けてCアームを段階的に誘導することを示しました。
- 研究ではGitHubでコードを公開しており、エージェント型の自律Cアーム制御に向けたさらなる研究を後押しします。