1Dセマンティックトークナイザによるエンドツーエンド・自己回帰型画像生成

arXiv cs.CV / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、1Dセマンティックトークナイザと自己回帰型の生成モデルを同時に学習するエンドツーエンドの画像生成フレームワークを提案し、生成結果からトークナイザを直接監督できるようにします。
従来の「2段階」手法でトークナイザと画像生成器を別々に学習するのに対し、本アプローチは再構成と生成を単一の学習パイプラインで共同最適化します。
著者らは、自己回帰型画像モデリング向けに1Dトークナイザを強化するため、視覚の基盤モデルを活用する可能性も検討しています。
得られた自己回帰型モデルは品質が高く、ImageNet 256×256生成でガイダンスなしの条件ながらFID 1.48を達成し、SOTA（最先端）だと主張しています。

概要: 自己回帰的な画像モデリングは、画像をコンパクトな潜在表現へ圧縮するための視覚トークナイザに依存します。私たちは、再構成と生成を同時に最適化するエンドツーエンドの学習パイプラインを設計し、生成結果からトークナイザへの直接的な教師信号を可能にします。これは、従来の2段階アプローチがトークナイザと生成モデルを別々に学習していたのと対照的です。さらに、視覚の基盤モデルを活用して、自己回帰モデリングのための1Dトークナイザを改善することを調査します。私たちの自己回帰的生成モデルは、強力な実験結果を達成しており、ImageNetの256x256生成においてガイダンスなしで最先端のFIDスコア1.48を含みます。

LLMのためのとても基本的なリトマステスト

Reddit r/LocalLLaMA

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

Dev.to

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Dev.to

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

Dev.to

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ

Dev.to

1Dセマンティックトークナイザによるエンドツーエンド・自己回帰型画像生成

要点

関連記事

LLMのためのとても基本的なリトマステスト

Power PlatformにおけるALM：ADO＋GitHubで「両方の良いところ」を取る

実験：RAGライク構成でChatGPT 5.4の出力は反復利用で変わるのか？

Topify.aiが上位表示すべき「GEO」コンテンツのトピック案（検索ボリューム高・競争低）を12件挙げる

「覚えたルール」がバグにも都合よく当てはまるとき——エージェントワークフローのメタトラップ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer