広告

Qwen3.5-Omniは、誰もそれを訓練せずに話し言葉の指示と動画からコードを書くことを学んだ

THE DECODER / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Alibabaは、テキスト・画像・音声・動画を単一のシステムで処理できるオムニモーダルAIモデル「Qwen3.5-Omni」をリリースした。
  • 記事によれば、このモデルは音声関連タスクにおいてGemini 3.1 Proを上回ることを目指している。
  • 注目すべき点として、Qwen3.5-Omniは、話し言葉の指示と動画の入力からコードを生成できるが、そのモダリティからのコード作成について明示的に訓練した人はいない。
  • 今回のリリースは、特定の用途に狭く絞った訓練を行わなくても、モダリティ間で創発的な能力を示すマルチモーダルモデルが広がっているというより大きな潮流を浮き彫りにしている。

Alibabaの広告グラフィックでは、伝統的な中国の衣装を着た2体のテディベアが描かれています。左のクマは机の前でモニターの前に座っており、SOTAパフォーマンス、詳細な音声・映像キャプション、ネイティブなマルチモーダル、豊富な多言語対応といった機能を備えたQwen3.5-Omni-Plusを表しています。右のクマはスマートフォンを手にしており、音声による操作、Web検索ツール、ボイスクローン、セマンティック・インタラプション(意味に基づく中断)を備えたQwen3.5-Omni-Plus-Realtimeを表しています。

Alibabaは、テキスト、画像、音声、動画を処理するマルチモーダルAIモデル「Qwen3.5-Omni」をリリースしました。音声タスクにおいてGemini 3.1 Proを上回ると主張しており、その過程で思いがけない「技」も見つかりました。音声による指示と動画入力から、コードを書き起こせるのです。しかも、誰もそれに学習させてはいません。

この記事 Qwen3.5-Omniは、誰も学習させることなく音声による指示と動画からコードを書くことを学んだ は、The Decoder に最初に掲載されました。

広告