AI Navigate

視覚ガイド型の細粒度セマンティック分離による制御可能な医用画像生成

arXiv cs.CV / 2026/3/12

📰 ニュースModels & Research

要点

  • 本研究は、詳細な視覚情報と抽象的な臨床テキスト間のモダリティ間のギャップに対処することで、医用画像生成の制御性を向上させる「視覚ガイド型テキスト分離」フレームワークを提案します。
  • 視覚的事前情報を用いて、非構造化テキストを独立した意味表現へ分離するクロスモーダル潜在整合機構を導入します。
  • ハイブリッド特徴融合モジュール(HFFM)は、これらの特徴を分離されたチャネルを介して拡散トランスフォーマー(DiT)に注入し、細かな構造制御を可能にします。
  • 3つのデータセットでの実験は、従来法と比較して生成品質が向上し、下流の分類性能も改善されることを示しました。
  • 著者は再現性と今後の研究のために、GitHub上の該当URLでソースコードを提供しています。
医用画像の合成は、データ不足とプライバシー制約を緩和する上で重要です。しかし、一般的なテキストから画像への(T2I)モデルを微調整することは、複雑な視覚的ディテールと抽象的な臨床テキストとのモダリティ間の大きなギャップが主な原因で困難です。さらに、セマンティックな絡みつきが残り、粗い粒度のテキスト埋め込みが解剖学的構造と画像スタイルの境界を曖昧にし、生成時の制御性を低下させます。この課題に対処するため、視覚ガイド型のテキスト分離フレームワークを提案します。我々は、視覚的事前情報を活用して非構造化テキストを独立した意味表現へ明示的に分離するクロスモーダル潜在整合機構を導入します。続いて、ハイブリッド特徴融合モジュール(HFFM)が、これらの特徴を分離されたチャネルを介して拡散トランスフォーマー(DiT)に注入し、細かな構造制御を可能にします。3つのデータセットでの実験結果は、生成品質の点で従来法を上回り、下流の分類タスクの性能を大幅に向上させることを示しています。ソースコードは https://github.com/hx111/VG-MedGen で入手可能です。