VLM(視覚言語モデル)ガイド付きフローマッチングとスペクトル異常検出の統合による、解釈可能な獣医診断

arXiv cs.CV / 2026/4/8

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、データ不足と、より信頼でき解釈可能なモデルへの要求に取り組み、新しい研究用データセットと診断フレームワークにより犬の気胸診断を扱う。
  • 公開可能な、ピクセル単位で注釈されたデータセットと、病変の局在化にスペクトル異常検出を組み合わせる診断パラダイムを導入する。
  • 局在化のために、VLM(Vision-Language Model)が反復的なフローマッチング(Flow Matching)を導き、セグメンテーションマスクを段階的に改善して境界精度を高める。
  • 検出では、精製されたセグメンテーションを用いて病変の特徴を切り出し、それをランダム行列理論(RMT)に基づいて評価することで、従来の分類器ではなく統計的に有意な外れ値の固有値によって気胸を検出する。
  • 著者らは、RMTの感度には高忠実度なマスク精製が重要であると主張し、再現性を支えるためのソースコードを提供する。

要旨: 犬の気胸の自動診断は、データ不足と、信頼できるモデルが必要であることにより困難となっている。これに対処するために、まず研究を促進する公開された、ピクセルレベルで注釈付けされたデータセットを導入する。次に、診断タスクを「信号の局在化」と「スペクトル検出」の相乗的なプロセスとして捉え直す、新しい診断パラダイムを提案する。局在化のために、我々の手法は、Vision-Language Model(VLM)を用いて反復的なフローマッチング(Flow Matching)プロセスを導き、セグメンテーションマスクを段階的に改良することで、より高い境界精度を達成する。検出のために、セグメントされたマスクを用いて疑わしい病変から特徴を切り出す。続いて、従来型の分類器とは一線を画すRandom Matrix Theory(RMT)を、これらの特徴の解析に適用する。このアプローチでは、健常組織を予測可能なランダムノイズとしてモデル化し、ランダムではない病理学的な信号を表す統計的に有意な外れ値の固有値を検出することで気胸を同定する。フローマッチングによる高精細な局在化は、信号の精製に不可欠であり、その結果としてRMT検出器の感度を最大化する。この生成的セグメンテーションと、第一原理に基づく統計解析の相乗により、高精度で解釈可能な診断システムが得られる(ソースコードは以下で利用可能: https://github.com/Pu-Wang-alt/Canine-pneumothorax)。