UIPress:UI-to-Code生成に光学トークン圧縮をもたらす
arXiv cs.CL / 2026/4/13
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、UI-to-code生成には真の視覚トークン圧縮が必要だと主張している。既存手法は主に特徴をフィルタリングしたりゼロにしたりするだけで、プリフィル・レイテンシを左右する実際のシーケンス長を削減できていないためである。
- 凍結したViTエンコーダとQwen3-VL-8B LLMデコーダの間に配置する軽量な学習済み圧縮モジュールとしてUIPressを提案する。UIPressは約6,700個の視覚トークンを固定の256トークン予算へ圧縮することを目的としている。
- UIPressは、深さ方向分離可能な畳み込み(depthwise-separable convolutions)、要素ガイド付きの空間再重み付け、そしてTransformerによる改良段階を用いる。さらに、表現ギャップを埋めるためにデコーダにLoRAを組み合わせる。
- Design2Codeでの実験では、256トークンの使用によりCLIPスコアが0.8127に向上した(非圧縮ベースラインに対して+7.5%、推論時の最良ベースラインに対して+4.6%)。同時に、time-to-first-tokenが9.1×高速化される。
- 著者らは、UIPressがUI-to-codeタスクに特化したエンコーダ側の学習済み圧縮として初めての手法だと主張している。出力品質を犠牲にすることなく効率を高められるという。




