マルチモーダル大規模言語モデル(MLLMs)の状況は、実験的な「ラッパー」—別個の視覚または音声エンコーダをテキストベースのバックボーンに接続するだけのもの—から、ネイティブでエンドツーエンドの「オムニモーダル」アーキテクチャへと移行しています。Alibaba Qwenチームの最新リリースであるQwen3.5-Omniは、この進化における重要なマイルストーンを示します。Gemini 3.1 Proのようなフラッグシップモデルの直接の競合として設計されたQwen3.5-Omniは[…]
この記事 Alibaba Qwen Team Releases Qwen3.5 Omni: A Native Multimodal Model for Text, Audio, Video, and Realtime Interaction は、最初に MarkTechPost に掲載されました。



