要約:潜在空間に基づく視覚的生成モデルは大きな成功を収め、視覚トークン化の重要性を強調している。画像を潜在表現へ写像することは効率を高め、下流タスクのスケーリングを可能にするマルチモーダル整合性を実現します。既存の視覚トークナイザーは主に画像を固定された2D空間グリッドへマッピングし、ピクセルレベルの復元に焦点を当てるため、コンパクトなグローバルセマンティクスを持つ表現の捉えを妨げます。これらの問題に対処するため、私たちは SemTok、高レベルの意味論を持つ1D離散トークンへ2D画像を圧縮するセマンティック1次元トークナイザーを提案します。SemTok は画像再構成において新たな最先端を確立し、非常にコンパクトなトークン表現にもかかわらず優れた忠実度を達成します。これは、2D-to-1Dトークン化スキーム、セマンティック整合性制約、および2段階の生成トレーニング戦略という3つの重要な革新からなる相乗的なフレームワークによって実現されます。SemTokを基盤として、マスク付き自己回帰生成フレームワークを構築し、下流の画像生成タスクにおいて顕著な改善をもたらします。実験は、私たちのセマンティック1Dトークン化の有効性を確認しています。私たちのコードはオープンソース化されます。
画像再構成と生成のためのセマンティックな1次元トークナイザー
arXiv cs.CV / 2026/3/18
📰 ニュースModels & Research
要点
- SemTokは、2次元画像を高レベルの意味を持つコンパクトな1次元離散トークンへ変換するセマンティックな1次元トークナイザーを提案する。
- それは、2Dから1Dへのトークン化スキーム、セマンティック整合制約、そして二段階の生成トレーニング戦略を組み合わせて、より少ないトークンで最先端の画像再構成を実現する。
- 本研究はSemTokを、下流の画像生成タスクでの改善をもたらすマスク付き自己回帰生成フレームワークへと拡張する。
- 実験結果は、セマンティックな1次元トークン化の有効性を確認しており、著者らはコードをオープンソース化する予定です。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning