A-SelecT: 拡散トランスフォーマ表現学習のための自動タイムステップ選択

arXiv cs.AI / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一の実行で拡散トランスフォーマ（DiT）の表現学習において最も情報量が多いタイムステップを自動的に選択する手法A-SelecTを提案し、従来のタイムステップ探索アプローチによる制約に対処する。
A-SelecTは、計算コストの高い網羅的なタイムステップ探索の必要性を取り除きつつ、DiTに特化した弁別的特徴の活用を改善するよう設計されている。
分類およびセグメンテーションのベンチマークに対する実験により、A-SelecTを組み合わせたDiTが、従来の拡散ベース手法を上回る性能を示し、さらに訓練効率の改善も維持することが確認される。
本研究は、従来のU-Netベースの拡散アーキテクチャを超えて、生成的事前学習による弁別的表現学習のためのより強力な候補として、特にDiTを含む拡散モデルを位置付ける。

Abstract

拡散モデルは生成的人工知能の分野を大きく変え、現在では判別的表現学習における能力としてますます注目されるようになっています。拡散トランスフォーマー（DiT）は、従来のU-Netベースの拡散モデルに代わる有望な手法として近年注目を集めており、生成的事前学習を通じて下流の判別タスクに有望な道筋を示しています。しかし、その現在の学習効率と表現能力は、不十分なタイムステップ探索とDiT固有の特徴表現の活用不足により、依然として大きく制約されています。この観点を踏まえて本研究では、単一の実行で、選択されたトランスフォーマー特徴からDiTの最も情報量の多いタイムステップを動的に特定するAutomatically Selected Timestep（A-SelecT）を導入します。これにより、計算コストの高い網羅的タイムステップ探索と、不適切な判別的特徴選択の両方が不要になります。分類およびセグメンテーションのベンチマークに対する大規模な実験により、A-SelecTによって強化されたDiTが、これまでの拡散ベースの試みを効率的かつ効果的にすべて上回ることが示されます。