鼻経鼻気管挿管における声門セグメンテーションのためのリアルタイムでスケールに頑健なネットワーク

arXiv cs.CV / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

要点

  • 本論文は、鼻経鼻気管挿管(NTI)での機械支援を改善することを目的に、複雑な解剖学的環境や照明の悪さ、さらに手技中に大きく変化する声門のスケールに対して頑健な声門セグメンテーション手法を提案する。
  • 声門のスケール変動への頑健性は、多受容野(multi-receptive field)特徴抽出モジュールによってクラス内差を抑える設計で実現し、このモジュールをネットワークのバックボーンとネックに積み重ねる。
  • 複雑なNTI環境での精度向上として、高度なラベル割り当て手法とサンプリング数(サンプル設定)の再定義により、クラス内差をさらに減らし精度を高める。
  • 3つのデータセットで評価した結果、本手法は既存の最先端手法を上回り、mDice 92.9%、モデルサイズ19MB、推論速度170FPS超を達成した。
  • 著者らは、コードとデータセットを論文採択後にGitHubでオープンソース化すると述べており、GlottisNetのリポジトリURLも提示している。

Abstract

鼻気管挿管(NTI)は、患者の気道開通性を確立し維持するための重要な臨床手技である。機械支援によるNTIは、手技の効率を最適化し、手作業による介入を最小限に抑えるための主要なアプローチとして登場している。しかし、NTIナビゲーションに用いられる視覚検出アルゴリズムは、喉頭周辺の複雑な解剖学的環境や不十分な照明条件といった重大な課題に直面している。さらに、喉頭は手技の進行に伴ってそのスケールが大きく変動し、手始めには小さくて捉えにくい構造として現れるが、その後ほぼ視野全体を占めるまでに拡大する。また、従来の視覚検出手法は計算コストが高いことが多く、携帯型デバイス上でのリアルタイムかつ高精度な検出を実現することが難しい。そこで本論文では、これらの課題に対処し、NTIの有効性を高めるために、視覚支援型NTIアプリケーション向けに最適化した新規な喉頭セグメンテーション枠組みを提案する。まず、クラス内差異を低減し、喉頭のスケール変動に対する頑健性を達成するために、軽量な多受容野特徴抽出モジュールを設計した。次に、このモジュールを積み重ねてネットワークのバックボーンおよびネックを構成した。さらに、先進的なラベル割り当て手法を開発し、複雑なNTI環境においてクラス内差異をさらに低減し、精度を向上させるためにサンプル数を再定義した。3つの異なるデータセットでの実験により、本ネットワークは最先端のアルゴリズムを上回り、コンパクトなモデルサイズ19 MBで、セグメンテーションmDiceが92.9\\%を達成し、推論速度は170フレーム/秒を超えることを示した。% 原稿が採択された後、コードとデータセットをGitHubでオープンソース化する予定である。本コードとデータセットは https://github.com/HBUT-CV/GlottisNet で利用可能である。