AI Navigate

レイアウト指向の制御可能な病理画像生成とインコンテキスト拡散トランスフォーマー

arXiv cs.CV / 2026/3/17

📰 ニュースModels & Research

要点

  • 本研究は制御可能な病理画像合成に取り組み、従来のテキスト誘導拡散モデルは粗いグローバル制御しか提供せず、細かな構造的制約を欠くことを指摘する。
  • 画像説明、診断ステップの抽出、および自動品質判断を組み合わせて、大規模に臨床的に整合した監督を生成する、スケーラブルなマルチエージェント LVLM アノテーションフレームワークを提案する。
  • IC-DiT は、空間レイアウト、テキスト記述、視覚埋め込みを階層的マルチモーダル注意機構と統合し、形態を保持しつつ全体的な意味的一貫性を維持する、レイアウト対応の拡散トランスフォーマーである。
  • 5つの病理組織学データセットでの実験は、IC-DiT がより高い忠実度、より強い空間的制御性、より良い診断の一貫性を達成することを示し、生成画像はがん分類や生存分析といった下流タスクの向上にも寄与する。

要旨: 制御可能な病理画像の合成には、空間レイアウト、組織形態、意味的な細部の信頼性の高い調整が求められます。とはいえ、既存のテキスト誘導型拡散モデルはグローバルな制御を粗くしか提供せず、微細な構造的制約を課す能力を欠いています。パッチレベルの空間レイアウトと詳細な診断説明を対に含む大規模データセットが欠如しているため、進捗はさらに制限されます。ギガピクセル級の全スライド画像に対してそのような注釈を生成することは、人間の専門家にとって極めて時間を要します。これらの課題を克服するために、まず画像説明、診断ステップの抽出、そして自動品質判断を統合した協調的なパイプラインを組み込む、スケーラブルなマルチエージェントLVLMアノテーションフレームワークを開発し、人間による検証プロセスを通じてシステムの信頼性を評価します。このフレームワークは、微細で臨床的に整合した監督データを大規模に効率よく構築することを可能にします。整えられたデータに基づき、In-Context Diffusion Transformer (IC-DiT) は、空間レイアウト、テキスト記述、および視覚埋め込みを統一された拡散トランスフォーマーへ組み込んだ、レイアウトを意識した生成モデルであることを提案します。階層的なマルチモーダルアテンションを通じて、IC-DiT はグローバルな意味的一貫性を維持しつつ、構造的および形態的なディテールを正確に保持します。5つの病理組織学データセットを用いた広範な実験により、IC-DiT は既存の方法よりも高い忠実度、より強い空間的制御性、そしてより良い診断の一貫性を達成することが示されました。さらに、生成された画像は、がん分類や生存分析などの下流タスクに対する効果的なデータ拡張リソースとして機能します。