要旨: 本稿では、テキスト・画像・音声の理解と生成を統合し、さらに動画理解も同一のアーキテクチャのもとで扱う、最初のマスク付き拡散ベースのオムニモーダル基盤モデルであるDynin-Omniを提案します。異種モダリティを逐次的に直列化する自己回帰型の統一モデル、または外部のモダリティ固有デコーダによるオーケストレーションを必要とする構成的統一モデルとは異なり、Dynin-Omniはオムニモーダルなモデリングを、共有された離散トークン空間上でのマスク付き拡散としてネイティブに定式化します。これにより、双方向の文脈のもとで反復的な改良を可能にします。Dynin-Omniは、モデル・マージに基づくモダリティ拡張と、オムニモーダル整合(アラインメント)を伴うマルチステージの学習戦略を採用します。評価では、言語推論、画像生成と編集、動画理解、音声認識と合成にわたる19のマルチモーダル・ベンチマークでDynin-Omniを検証します。Dynin-Omniは、GSM8Kで87.6、MME-Pで1733.6、VideoMMEで61.4、GenEvalで0.87、LibriSpeech test-cleanでWER 2.1を達成し、既存のオープンソース統一モデルを一貫して上回りつつ、強力なモダリティ固有のエキスパートシステムとも競争力を維持します。これらの結果は、あらゆる入力からあらゆる出力へのモデリングに対する統一的パラダイムとしてのマスク付き拡散の可能性を示しており、リアルタイムなオムニモーダル・システムのための柔軟な基盤、統一されたクロスモーダルな検索と生成、そして身体性を備えたマルチモーダル・エージェントを提供します。
Dynin-Omni:Omnimodal Unified Large Diffusion Language Model
arXiv cs.AI / 2026/4/2
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Dynin-Omniは、マスク付き拡散(masked-diffusion)に基づくオムニモーダル基盤モデルとして導入されており、1つのアーキテクチャのもとでテキスト、画像、音声の理解/生成に加え、動画の理解までを統一します。
- このモデルは、自己回帰的および合成(compositional)による統合アプローチとは異なり、共有された離散トークン空間上でマスク付き拡散としてオムニモーダル学習を行い、双方向の文脈を用いた反復的な洗練(refinement)によって統合を実現します。
- モダリティ拡張を支援するために、モデルのマージ(model-merging)に基づく段階的トレーニング戦略を含み、その後にオムニモーダルなアラインメント(alignment)を行うことで、幅広いマルチモーダル能力を獲得します。
- 19のマルチモーダル・ベンチマークにおいて、Dynin-Omniは推論(例:GSM8K)、画像タスク(例:MME-P)、動画理解(例:VideoMME)、音声認識(例:LibriSpeech WER)などで強い結果を報告しています。
- 著者らは、マスク付き拡散があらゆる入出力(any-to-any)モデリングのための柔軟な統一パラダイムを提供し得ると主張しており、クロスモーダルな検索と生成を通じて、リアルタイムのオムニモーダル・システムや、身体性(embodied)を備えたマルチモーダル・エージェントを可能にする可能性があるとしています。




