RD-ViT：反復型デプスのビジョントランスフォーマー（再帰的深さ）による意味セグメンテーション—データ依存を抑えたRDT拡張

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

RD-ViTは、意味セグメンテーション向けに提案された反復型デプスのVision Transformerで、各層ごとの独立パラメータ学習を、1つの共有ブロックをT回反復する構成に置き換えることで大規模データへの依存を低減します。
2D/3Dの両方に対応した高密度予測を対象にしており（心臓MRIを含む）、収束を保証するLTI-stable state injection、空間に応じた計算配分を行うAdaptive Computation Time（ACT）、パラメータ効率の高いdepth-wise LoRAを用います。
オプションとしてMixture-of-Experts（MoE）のフィードフォワードを組み込み、明示的なルーティング監督なしに、異なる心臓構造（RV、MYO、LV）で専門家が自然に分化する挙動を報告しています。
ACDC心臓MRIベンチマークで検証したところ、2Dではデータを絞っても標準ViTを上回り（例：10%データでDice 0.774 vs 0.762）、3Dでも少ないパラメータで高精度を達成しています（3.0MパラメータでDice 0.812、標準ViTの約99.4%をパラメータ約53%で到達）。
さらに、ACTの停止マップで心臓境界に計算を多く割り当てることや、学習より多いループ数で推論しても劣化しないdepth extrapolationなど、計算効率と柔軟性の利点を示し、コードとノートブックは公開されています。

概要: Vision Transformer（ViT）は最先端のセグメンテーション精度を達成しますが、各層が独自のパラメータを持ち、それらを層ごとに独立して学習する必要があるため、大規模な学習データセットを要します。本論文では、Recurrent-Depth Transformer（RDT）アーキテクチャを密な予測（dense prediction）タスクに適応させた Recurrent-Depth Vision Transformer である RD-ViT を提案します。これにより 2D および 3D 入力の両方を扱えます。RD-ViT は、独自のトランスフォーマーブロックからなる深い積み重ねを、T 回ループさせる単一の共有ブロックで置き換えます。さらに、収束保証のための LTI 安定状態注入、空間的な計算割り当てのための Adaptive Computation Time（ACT）、深さ方向の LoRA 適応、カテゴリ固有の専門化のための任意の Mixture-of-Experts（MoE）フィードフォワードネットワークを組み合わせています。ACDC の心臓 MRI セグメンテーションのベンチマークに対して、2D スライスレベルおよび 3D ボリューム設定の両方で評価します。実験はすべて Google Colab 上で実実験のみで実行しました。2D では、RD-ViT は学習データ 10% のとき標準の ViT を上回り（Dice 0.774 vs 0.762）、全データでは（0.882 vs 0.872）上回ります。3D では、MoE を備えた RD-ViT が 3.0M パラメータで Dice 0.812 を達成し、パラメータ数の 53% で標準 ViT の 99.4%（0.817）に到達します。MoE の専門家（expert）利用の分析により、異なる専門家が明示的なルーティングの教師なしで、心臓構造（RV、MYO、LV）ごとに自発的に専門化することが示されます。ACT の停止マップでは、心臓の境界で計算割り当てが高いことが分かり、平均の ponder time は学習中に 2.6 から 1.4 イテレーションへと減少し、学習された計算効率を示しています。深さの外挿により、学習時より多くのループで劣化なく推論できます。すべてのコード、ノートブック、および結果は公開されています。