RF-HiT：一般的な医用画像セグメンテーションのためのRectified Flow Hierarchical Transformer

arXiv cs.CV / 2026/4/22

📰 ニュースModels & Research

共有:

要点

この論文では、長距離の文脈理解と境界の正確な描写を両立することを目的とした、一般的な医用画像セグメンテーション向けのRF-HiT（Rectified Flow Hierarchical Transformer）を提案します。
通常のTransformer/拡散系で問題になりがちな計算量・推論遅延のボトルネックを、rectified flowとhourglass型Transformerバックボーン、および多尺度階層エンコーダの組み合わせで解消し、線形計算量を実現するとしています。
anatomically guidedな条件付け特徴を解像度間で学習可能な補間により統合し、低オーバーヘッドで強力な多尺度表現を可能にしています。
推論は離散化ステップを最小で3ステップ程度に抑え、計算規模も10.14 GFLOPs・13.6Mパラメータとコンパクトです。
ベンチマークではACDCで91.27%（mean Dice）、BraTS 2021で87.40%を達成し、より重い計算量のアーキテクチャに匹敵または上回る性能を示して、リアルタイム臨床セグメンテーションの基盤になり得ると位置づけています。

要旨: 正確な医用画像セグメンテーションには、長距離の文脈推論と、境界の精密な描出の両方が必要です。しかし、既存のトランスフォーマーおよび拡散ベースのパラダイムは、しばしば二次的な計算複雑性と容認しがたい推論遅延によってボトルネック化しています。本研究では、解剖学的に導かれた特徴条件付けのために、ハイアングラス（hourglass）トランスフォーマーのバックボーンとマルチスケール階層エンコーダを統合した、Rectified Flow Hierarchical Transformer である RF-HiT を提案します。先行する拡散ベース手法とは異なり、RF-HiT は、効率的なトランスフォーマーブロックを用いた rectified flow により線形計算量を実現し、さらに離散化ステップをわずか数回だけで済むようにしています。加えて、本モデルは、学習可能な補間によって解像度をまたいで条件付け特徴を融合し、最小限の計算オーバーヘッドで効果的なマルチスケール表現を可能にします。その結果、RF-HiT は優れた効率—性能のトレードオフを達成し、必要な計算量は 10.14 GFLOPs、パラメータ数は 13.6M、推論は最少でも 3 ステップで完了します。コンパクトな設計にもかかわらず、RF-HiT は ACDC で平均 Dice 91.27%、BraTS 2021 で 87.40% を達成し、より大規模で計算集約的なアーキテクチャと同等、あるいはそれを上回る性能を示します。これは、リアルタイム臨床セグメンテーションのための、堅牢で計算効率の高い基盤としての強い潜在力を示しています。