YOSE：必要なトークンだけを選択することで、DiTベースの動画オブジェクト除去を効率化

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、マスクに基づく編集で生じる高い推論レイテンシを抑えるために、DiTベースの動画オブジェクト除去向けの効率化ファインチューニング手法「YOSE」を提案する。
YOSEは、Batch Variable-length Indexing（BVI）によって、マスク情報に基づき必須の時空間トークンのみを適応的に選択し、サンプルごとに可変長のトークン処理を可能にする。
さらにDiffusion Process Simulator（DiffSim）を導入し、非マスク領域がDiTの自己注意に与える影響を近似して、マスク領域の意味的一貫性を保つ。
実験では、推論時間がマスク領域サイズに対してほぼ線形にスケールする「マスク対応の高速化」を示し、70%のケースで最大2.5×の高速化を達成しつつ、ベースラインと同等に近い画質を維持する。
著者らは、提示されたGitHubリンクを通じて実装コードを公開している。

要旨: 近年、拡散トランスフォーマ（DiT）に基づく動画生成技術の進展により、動画からの対象物除去に関して印象的な成果が報告されています。しかし、これらの手法はいまだに大きな推論遅延の問題を抱えています。たとえば、MiniMax Removerは最先端の視覚品質を達成しているものの、実行速度は主に全ての時空間トークン空間に対する密な計算に起因して、実質的に約10FPSにとどまっています。実際には、処理が必要なのはごく小さいマスク領域のみであるにもかかわらずです。本論文では、効率的な微調整フレームワークであるYOSE（You Only Select Essential Tokens）を提案します。YOSEは2つの主要コンポーネントを導入します：Batch Variable-length Indexing（BVI）とDiffusion Process Simulator（DiffSim）モジュールです。BVIは、マスク情報に基づいて本質的なトークンを適応的に選択する、微分可能な動的インデクシング演算子であり、サンプル間で可変長のトークン処理を可能にします。DiffSimは、非マスクトークンに対する拡散過程の近似メカニズムを提供し、DiTの自己注意において非マスク領域が及ぼす影響をシミュレートすることで、マスクトークンの意味的一貫性を維持します。これらの設計により、YOSEはマスクを考慮した加速を実現し、推論時間はマスク領域の大きさに対して概ね線形にスケールします。一方で、計算が定数でありマスクサイズに依存しない、フルトークンの拡散手法とは対照的です。大規模な実験により、YOSEは視覚品質をベースラインと同等に保ちながら、70%のケースで最大2.5倍の速度向上を達成することが示されています。コードは以下で入手可能です：https://github.com/Wucy0519/YOSE-CVPR26。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

Dev.to

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

YOSE：必要なトークンだけを選択することで、DiTベースの動画オブジェクト除去を効率化

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価