MedPruner: 学習不要の階層的トークンプルーニングによるビジョン-ランゲージモデルにおける効率的な3D医用画像理解
arXiv cs.CV / 2026/3/13
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- MedPruner は、ビジョン-ランゲージモデル内での3D医用画像理解における計算コストを削減する、トレーニング不要でモデル非依存の階層的トークンプルーニングフレームワークを提案します。
- 本手法は、2段階のアプローチを特徴とします:スライス間アンカー基盤のフィルタリングによるスライスレベルの冗長性の除去と、累積アテンション重みを定量化して適応的なトークンレベルの圧縮を実現する動的情報核選択戦略(Dynamic Information Nucleus Selection)です。
- 3つの3D医療ベンチマークと3つの多様な医用VLMにわたる実験により、既存アーキテクチャにおける顕著なトークン冗長性が明らかになり、視覚トークンを5%未満に削減しつつ性能を維持または向上させることができます。
- 著者らは、本手法が実用的な臨床展開を可能にし、コードを公開する予定であると述べています。
概要:専門的な医用ビジョン-ランゲージモデル(VLM)は、2Dおよび3Dの医用モダリティの解釈において顕著な成功を収めていますが、3D体積データの展開は依然として顕著な計算効率の課題に制約されています。現在のアーキテクチャは、連続する2Dスライスを直接結合することにより、巨大な解剖学的冗長性を生み出し、固定されたプルーニング比を用いて異なるスライス間の情報密度の不均一性を処理する柔軟性を欠いています。これらの課題に対処するため、学習不要かつモデル非依存の階層的トークンプルーニングフレームワークである MedPruner を提案します。MedPruner は、2段階の機構を導入します:スライス間アンカー基盤のフィルタリングモジュールによるスライスレベルの時間的冗長性の除去と、累積アテンション重みを定量化して適応的なトークンレベルの圧縮を実現する動的情報核選択戦略(Dynamic Information Nucleus Selection)です。3つの3D医療ベンチマークと3つの多様な医用VLMに対する広範な実験は、既存アーキテクチャにおける大量のトークン冗長性を明らかにします。特に、MedPruner は MedGemma のようなモデルが元の性能を維持または超えることを可能にし、視覚トークンを5%未満に抑えつつ計算オーバーヘッドを大幅に削減し、実用的な臨床展開における動的トークン選択の必要性を検証します。我々のコードは公開される予定です。