視覚ガイド型の細粒度セマンティック分離による制御可能な医用画像生成
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- 本研究は、詳細な視覚情報と抽象的な臨床テキスト間のモダリティ間のギャップに対処することで、医用画像生成の制御性を向上させる「視覚ガイド型テキスト分離」フレームワークを提案します。
- 視覚的事前情報を用いて、非構造化テキストを独立した意味表現へ分離するクロスモーダル潜在整合機構を導入します。
- ハイブリッド特徴融合モジュール(HFFM)は、これらの特徴を分離されたチャネルを介して拡散トランスフォーマー(DiT)に注入し、細かな構造制御を可能にします。
- 3つのデータセットでの実験は、従来法と比較して生成品質が向上し、下流の分類性能も改善されることを示しました。
- 著者は再現性と今後の研究のために、GitHub上の該当URLでソースコードを提供しています。
医用画像の合成は、データ不足とプライバシー制約を緩和する上で重要です。しかし、一般的なテキストから画像への(T2I)モデルを微調整することは、複雑な視覚的ディテールと抽象的な臨床テキストとのモダリティ間の大きなギャップが主な原因で困難です。さらに、セマンティックな絡みつきが残り、粗い粒度のテキスト埋め込みが解剖学的構造と画像スタイルの境界を曖昧にし、生成時の制御性を低下させます。この課題に対処するため、視覚ガイド型のテキスト分離フレームワークを提案します。我々は、視覚的事前情報を活用して非構造化テキストを独立した意味表現へ明示的に分離するクロスモーダル潜在整合機構を導入します。続いて、ハイブリッド特徴融合モジュール(HFFM)が、これらの特徴を分離されたチャネルを介して拡散トランスフォーマー(DiT)に注入し、細かな構造制御を可能にします。3つのデータセットでの実験結果は、生成品質の点で従来法を上回り、下流の分類タスクの性能を大幅に向上させることを示しています。ソースコードは https://github.com/hx111/VG-MedGen で入手可能です。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning