mtmd: qwen3 のオーディオ対応(qwen3-omni と qwen3-asr)

Reddit r/LocalLLaMA / 2026/4/13

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 本投稿では、llama.cpp における Qwen3 バリアントの動作するオーディオ対応が報告されており、具体的には qwen3-omni(視覚+オーディオ入力)と qwen3-asr が対象となっています。
  • 機能は、llama.cpp のプルリクエストとして参照されている実装によって示されており、この機能が上流へ統合されつつあることを示しています。
  • この更新はローカル/手元のモデルを持ち込むワークフロー(「LocalLLaMA」)を対象としており、開発者がオンデバイスでマルチモーダルなオーディオ機能を試せるようになります。
  • 本稿は、llama.cpp エコシステムにおける Qwen3 ベースのモデルを使って、リアルタイムまたはインタラクティブな「音声→理解」パイプラインに備えるための改善を示唆しています。
mtmd: qwen3 オーディオ対応(qwen3-omni と qwen3-asr)
  • qwen3-omni-moe が動作中(視覚 + オーディオ入力)
  • qwen3-asr が動作中
投稿者 /u/jacek2023
[リンク] [コメント]