要旨: 本論文では、反復型トランスフォーマー・アーキテクチャに基づく、高いパラメータ効率を実現する視覚生成モデルのクラス「Elastic Looped Transformers(ELT)」を提案する。従来の生成モデルが、固有のトランスフォーマー層を深く積み重ねることに依存しているのに対し、我々の手法では、反復的な重み共有トランスフォーマー・ブロックを用いることで、合成品質を高水準に維持しながらパラメータ数を大幅に削減する。画像および動画生成のためにこれらのモデルを効果的に学習するため、我々は「Intra-Loop Self Distillation(ILSD)」という考え方を提案する。ここでは、生徒構成(中間ループ)を教師構成(最大学習ループ)から蒸留し、1回の学習ステップにおいてモデルの深さ方向の整合性を確実にする。さらに、本フレームワークは、単一の学習実行から弾力的なモデル群を生成し、同一のパラメータ数のまま、計算コストと生成品質の動的なトレードオフを可能にする「Any-Time推論」機能を提供する。ELTは、視覚合成における効率のフロンティアを大きく押し広げる。iso-inference-compute の設定下でパラメータ数を 4 imes 削減しつつ、クラス条件付き ImageNet 256 \times 256 で FID を 2.0 として競争力のある性能を達成し、クラス条件付き UCF-101 で FVD を 72.8 として達成する。
ELT: 視覚生成のためのエラスティック・ループトランスフォーマ
arXiv cs.CV / 2026/4/13
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、重み共有された反復(リカレント)トランスフォーマブロックを多数の独自レイヤーとして積み重ねるのではなく再利用する、パラメータ効率の高い視覚生成モデルであるElastic Looped Transformers(ELT)を提案する。
- 画像および動画生成に対してELTを効果的に学習させるため、著者らはIntra-Loop Self Distillation(ILSD)を提案している。これは、単一の学習ステップ内で「教師」設定から中間の「生徒」ループ構成を蒸留することである。
- ELTの重要な特長は、1回の学習実行から一連の「エラスティック」モデル群を生成できる点にある。これにより、パラメータ数を変更することなく、いつでも推論でき、計算量と品質のトレードオフを制御できる。
- 報告されている効率改善として、推論の計算量が等しい条件(iso-inference-compute)において、パラメータを4分の1に削減しつつ、ImageNet 256×256(クラス条件付き)でFID 2.0、UCF-101(クラス条件付き)でFVD 72.8を達成している。

