RD-ViT:反復型デプスのビジョントランスフォーマー(再帰的深さ)による意味セグメンテーション—データ依存を抑えたRDT拡張

arXiv cs.CV / 2026/5/6

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • RD-ViTは、意味セグメンテーション向けに提案された反復型デプスのVision Transformerで、各層ごとの独立パラメータ学習を、1つの共有ブロックをT回反復する構成に置き換えることで大規模データへの依存を低減します。
  • 2D/3Dの両方に対応した高密度予測を対象にしており(心臓MRIを含む)、収束を保証するLTI-stable state injection、空間に応じた計算配分を行うAdaptive Computation Time(ACT)、パラメータ効率の高いdepth-wise LoRAを用います。
  • オプションとしてMixture-of-Experts(MoE)のフィードフォワードを組み込み、明示的なルーティング監督なしに、異なる心臓構造(RV、MYO、LV)で専門家が自然に分化する挙動を報告しています。
  • ACDC心臓MRIベンチマークで検証したところ、2Dではデータを絞っても標準ViTを上回り(例:10%データでDice 0.774 vs 0.762)、3Dでも少ないパラメータで高精度を達成しています(3.0MパラメータでDice 0.812、標準ViTの約99.4%をパラメータ約53%で到達)。
  • さらに、ACTの停止マップで心臓境界に計算を多く割り当てることや、学習より多いループ数で推論しても劣化しないdepth extrapolationなど、計算効率と柔軟性の利点を示し、コードとノートブックは公開されています。

概要: Vision Transformer(ViT)は最先端のセグメンテーション精度を達成しますが、各層が独自のパラメータを持ち、それらを層ごとに独立して学習する必要があるため、大規模な学習データセットを要します。本論文では、Recurrent-Depth Transformer(RDT)アーキテクチャを密な予測(dense prediction)タスクに適応させた Recurrent-Depth Vision Transformer である RD-ViT を提案します。これにより 2D および 3D 入力の両方を扱えます。RD-ViT は、独自のトランスフォーマーブロックからなる深い積み重ねを、T 回ループさせる単一の共有ブロックで置き換えます。さらに、収束保証のための LTI 安定状態注入、空間的な計算割り当てのための Adaptive Computation Time(ACT)、深さ方向の LoRA 適応、カテゴリ固有の専門化のための任意の Mixture-of-Experts(MoE)フィードフォワードネットワークを組み合わせています。A​​CDC の心臓 MRI セグメンテーションのベンチマークに対して、2D スライスレベルおよび 3D ボリューム設定の両方で評価します。実験はすべて Google Colab 上で実実験のみで実行しました。2D では、RD-ViT は学習データ 10% のとき標準の ViT を上回り(Dice 0.774 vs 0.762)、全データでは(0.882 vs 0.872)上回ります。3D では、MoE を備えた RD-ViT が 3.0M パラメータで Dice 0.812 を達成し、パラメータ数の 53% で標準 ViT の 99.4%(0.817)に到達します。MoE の専門家(expert)利用の分析により、異なる専門家が明示的なルーティングの教師なしで、心臓構造(RV、MYO、LV)ごとに自発的に専門化することが示されます。ACT の停止マップでは、心臓の境界で計算割り当てが高いことが分かり、平均の ponder time は学習中に 2.6 から 1.4 イテレーションへと減少し、学習された計算効率を示しています。深さの外挿により、学習時より多くのループで劣化なく推論できます。すべてのコード、ノートブック、および結果は公開されています。