ELT: 視覚生成のためのエラスティック・ループトランスフォーマ

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、重み共有された反復（リカレント）トランスフォーマブロックを多数の独自レイヤーとして積み重ねるのではなく再利用する、パラメータ効率の高い視覚生成モデルであるElastic Looped Transformers（ELT）を提案する。
画像および動画生成に対してELTを効果的に学習させるため、著者らはIntra-Loop Self Distillation（ILSD）を提案している。これは、単一の学習ステップ内で「教師」設定から中間の「生徒」ループ構成を蒸留することである。
ELTの重要な特長は、1回の学習実行から一連の「エラスティック」モデル群を生成できる点にある。これにより、パラメータ数を変更することなく、いつでも推論でき、計算量と品質のトレードオフを制御できる。
報告されている効率改善として、推論の計算量が等しい条件（iso-inference-compute）において、パラメータを4分の1に削減しつつ、ImageNet 256×256（クラス条件付き）でFID 2.0、UCF-101（クラス条件付き）でFVD 72.8を達成している。

要旨: 本論文では、反復型トランスフォーマー・アーキテクチャに基づく、高いパラメータ効率を実現する視覚生成モデルのクラス「Elastic Looped Transformers（ELT）」を提案する。従来の生成モデルが、固有のトランスフォーマー層を深く積み重ねることに依存しているのに対し、我々の手法では、反復的な重み共有トランスフォーマー・ブロックを用いることで、合成品質を高水準に維持しながらパラメータ数を大幅に削減する。画像および動画生成のためにこれらのモデルを効果的に学習するため、我々は「Intra-Loop Self Distillation（ILSD）」という考え方を提案する。ここでは、生徒構成（中間ループ）を教師構成（最大学習ループ）から蒸留し、1回の学習ステップにおいてモデルの深さ方向の整合性を確実にする。さらに、本フレームワークは、単一の学習実行から弾力的なモデル群を生成し、同一のパラメータ数のまま、計算コストと生成品質の動的なトレードオフを可能にする「Any-Time推論」機能を提供する。ELTは、視覚合成における効率のフロンティアを大きく押し広げる。iso-inference-compute の設定下でパラメータ数を $4 imes$ 削減しつつ、クラス条件付き ImageNet $256 \times 256$ で FID を $2.0$ として競争力のある性能を達成し、クラス条件付き UCF-101 で FVD を $72.8$ として達成する。

Black Hat Asia

AI Business

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

日経XTECH

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

日経XTECH

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日経XTECH

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

日経XTECH

ELT: 視覚生成のためのエラスティック・ループトランスフォーマ

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日本三大秘境の現場で最先端技術の活用、建機の遠隔・自律操作

ヒューマノイドが建設現場にやってくる、フィジカルAIは人手不足を救うか

ロボット用フィジカルAIのVLAがサブミリ精度獲得、Physical Intelligenceがオンライン強化学習で

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」 など、注目記事を音声化

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」／AIエージェント時代に台頭する「FDE」など、注目記事を音声化