Run Qwen3.5-4B on AMD NPU

Reddit r/LocalLLaMA / 3/26/2026

💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

共有:

Key Points

Ryzen AI 7 350（XDNA2 NPU）環境で「Qwen3.5-4B」を、Lemonade v10.0.1とFastFlowLM v0.9.36を使って動作検証したと報告されています。
省電力で運用でき、画面録画なしで50℃未満に収まったことや、ツール呼び出し（tool-calling）対応が確認されています。
最大256kトークンの言及がありますが、32GB RAMの手元環境では到達できなかったようです。
性能面ではVLMEvalKitスコア85.6%が示され、FastFlowLMがXDNA 2向けNPUsを幅広くサポートしている点が強調されています。
ベンチマーク資料や検証用のASUS機種、各プロジェクトのリンク（FastFlowLM、Lemonade server）も共有されています。

Tested on Ryzen AI 7 350 (XDNA2 NPU), 32GB RAM, using Lemonade v10.0.1 and FastFlowLM v0.9.36.

Features

FLM supports all XDNA 2 NPUs.

Some links:

This article is featured in our daily AI news digest — key takeaways and action items at a glance.

Dev.to

Dev.to

Ollama Releases

Dev.to

Reddit r/LocalLLaMA