Qwen3.5-Omniは、誰もそれを訓練せずに話し言葉の指示と動画からコードを書くことを学んだ

THE DECODER / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Alibabaは、テキスト・画像・音声・動画を単一のシステムで処理できるオムニモーダルAIモデル「Qwen3.5-Omni」をリリースした。
記事によれば、このモデルは音声関連タスクにおいてGemini 3.1 Proを上回ることを目指している。
注目すべき点として、Qwen3.5-Omniは、話し言葉の指示と動画の入力からコードを生成できるが、そのモダリティからのコード作成について明示的に訓練した人はいない。
今回のリリースは、特定の用途に狭く絞った訓練を行わなくても、モダリティ間で創発的な能力を示すマルチモーダルモデルが広がっているというより大きな潮流を浮き彫りにしている。

Alibabaは、テキスト、画像、音声、動画を処理するマルチモーダルAIモデル「Qwen3.5-Omni」をリリースしました。音声タスクにおいてGemini 3.1 Proを上回ると主張しており、その過程で思いがけない「技」も見つかりました。音声による指示と動画入力から、コードを書き起こせるのです。しかも、誰もそれに学習させてはいません。

この記事 Qwen3.5-Omniは、誰も学習させることなく音声による指示と動画からコードを書くことを学んだは、The Decoder に最初に掲載されました。