Alibaba Qwenチーム、Qwen3.5 Omniをリリース：テキスト、音声、動画、リアルタイム対話のためのネイティブなマルチモーダルモデル

MarkTechPost / 2026/3/31

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

AlibabaのQwenチームはQwen3.5-Omniを発表し、ラッパー型のマルチモーダルシステムを超えるネイティブなエンドツーエンドの「オムニモーダル」モデルだと位置付けた。
このモデルは、テキスト、音声、動画を扱えるだけでなく、リアルタイム対話もサポートしており、単一のアーキテクチャでより幅広いマルチモーダル領域をカバーすることを目指している。
今回のリリースは、Gemini 3.1 Proのようなハイエンドのフラッグシップ製品に対する競合として打ち出されている。
記事では、マルチモーダル処理をつぎはぎで組み合わせたパイプラインから、統合されたネイティブなマルチモーダル・アーキテクチャへと分野が移行しつつあることが示されており、Qwen3.5-Omniがこの潮流を体現していると述べている。

マルチモーダル大規模言語モデル（MLLMs）の状況は、実験的な「ラッパー」—別個の視覚または音声エンコーダをテキストベースのバックボーンに接続するだけのもの—から、ネイティブでエンドツーエンドの「オムニモーダル」アーキテクチャへと移行しています。Alibaba Qwenチームの最新リリースであるQwen3.5-Omniは、この進化における重要なマイルストーンを示します。Gemini 3.1 Proのようなフラッグシップモデルの直接の競合として設計されたQwen3.5-Omniは[…]

この記事 Alibaba Qwen Team Releases Qwen3.5 Omni: A Native Multimodal Model for Text, Audio, Video, and Realtime Interaction は、最初に MarkTechPost に掲載されました。