AURORA: 頑健な超音波解析のための適応的統一表現

arXiv cs.CV / 2026/3/23

📰 ニュースModels & Research

共有:

要点

AURORAを提案する、トランスフォーマー視覚エンコーダ（Qwen3-VL）を用いた、セグメンテーション、検出、分類、ランドマーク回帰を多様な超音波データに対して処理する統合マルチタスクフレームワーク。
中間トークン特徴を空間特徴マップに投影し、それらを軽量なマルチスケール特徴ピラミッドと融合させることで、共有表現におけるピクセルレベルの予測とグローバル推論の両方を可能にする。
各タスクは、タスク対応の小さな予測ヘッドを用い、タスク対応サンプリングと選択的損失バランシングを組み合わせて、異種の監督信号を管理し、タスク不均衡を低減する。
単純な最適化と幅広い適応性を目指しており、FMC-UIAタスク全体で検証性能が67%から85%へ向上したことと、平均テストスコア81.84%を報告する。
FMC-UIA-ISBIのコードは、提供されたGitHubリンクで公開されている。

要旨: 超音波画像は、スキャナー、操作者、解剖学的ターゲットによって大きく異なり、これにより1つの設定で学習したモデルが新しい病院や臨床条件に一般化できないことがよくあります。超音波画像解析の基盤モデルチャレンジ（FMC-UIA）は、この難しさを反映しており、単一のモデルが、異なる臓器やデータセットを横断して、セグメンテーション、検出、分類、ランドマーク回帰など複数のタスクを処理することを求めます。私たちは、Qwen3-VLファミリのトランスフォーマー視覚エンコーダに基づく、統一されたマルチタスクフレームワークを提案します。中間のトークン特徴量を空間的特徴マップに射影し、軽量なマルチスケール特徴ピラミッドを用いて統合することで、共有表現内でピクセルレベルの予測とグローバル推論の双方を可能にします。各タスクは小さなタスク特化予測ヘッドで処理され、トレーニングではタスク対応のサンプリングと選択的損失バランシングを用いて、異質な監視信号を管理し、タスクの不均衡を低減します。私たちの手法は、最適化を容易にし、広範な超音波解析タスクに対応できるよう適応可能になるよう設計されています。検証セットでの性能は67%から85%へ向上し、公式テストセット全タスクを通じて平均81.84%のスコアを達成しました。コードは以下で公開されています: https://github.com/saitejalekkala33/FMCUIA-ISBI.git