ECHO：1ステップ・ブロック拡散による効率的な胸部X線レポート生成

arXiv cs.LG / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、放射線科医の負荷を軽減することを目的とした胸部X線レポート生成のための、効率的な拡散ベースのビジョン・言語モデル（dVLM）ECHOを提案する。
自己回帰型VLMのレイテンシと、拡散モデルの多段ステップ性に対処するため、ブロックごとに安定した「1ステップ（per-block）推論」を可能にすることで解決する。
ECHOは、オンポリシーの拡散軌道から、より適切にトークンの同時依存関係（joint token dependencies）を捉えるための未分解（unfactorized）な教師信号を生成することで、平均場バイアス（mean-field bias）を緩和するDirect Conditional Distillation（DCD）フレームワークを用いる。
効率性を高めつつ効果を維持するためのResponse-Asymmetric Diffusion（RAD）という学習戦略を提案する。
実験では、最先端の自己回帰手法（RaTEおよびSemScore）に対して大きな改善を報告し、臨床的正確性を損なわずに推論速度を8倍向上させる。

%} および extbf{60.58
%} 改善し、臨床的正確性を損なうことなく extbf{ $8 imes$ } の推論速度向上を達成することが示されました。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH