%} および extbf{60.58
%} 改善し、臨床的正確性を損なうことなく extbf{8 imes} の推論速度向上を達成することが示されました。
ECHO:1ステップ・ブロック拡散による効率的な胸部X線レポート生成
arXiv cs.LG / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、放射線科医の負荷を軽減することを目的とした胸部X線レポート生成のための、効率的な拡散ベースのビジョン・言語モデル(dVLM)ECHOを提案する。
- 自己回帰型VLMのレイテンシと、拡散モデルの多段ステップ性に対処するため、ブロックごとに安定した「1ステップ(per-block)推論」を可能にすることで解決する。
- ECHOは、オンポリシーの拡散軌道から、より適切にトークンの同時依存関係(joint token dependencies)を捉えるための未分解(unfactorized)な教師信号を生成することで、平均場バイアス(mean-field bias)を緩和するDirect Conditional Distillation(DCD)フレームワークを用いる。
- 効率性を高めつつ効果を維持するためのResponse-Asymmetric Diffusion(RAD)という学習戦略を提案する。
- 実験では、最先端の自己回帰手法(RaTEおよびSemScore)に対して大きな改善を報告し、臨床的正確性を損なわずに推論速度を8倍向上させる。

