Run Qwen3.5-4B on AMD NPU

Reddit r/LocalLLaMA / 3/26/2026

💬 OpinionDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

Key Points

  • Ryzen AI 7 350(XDNA2 NPU)環境で「Qwen3.5-4B」を、Lemonade v10.0.1とFastFlowLM v0.9.36を使って動作検証したと報告されています。
  • 省電力で運用でき、画面録画なしで50℃未満に収まったことや、ツール呼び出し(tool-calling)対応が確認されています。
  • 最大256kトークンの言及がありますが、32GB RAMの手元環境では到達できなかったようです。
  • 性能面ではVLMEvalKitスコア85.6%が示され、FastFlowLMがXDNA 2向けNPUsを幅広くサポートしている点が強調されています。
  • ベンチマーク資料や検証用のASUS機種、各プロジェクトのリンク(FastFlowLM、Lemonade server)も共有されています。
Run Qwen3.5-4B on AMD NPU

Tested on Ryzen AI 7 350 (XDNA2 NPU), 32GB RAM, using Lemonade v10.0.1 and FastFlowLM v0.9.36.

Features

  • Low-power
  • Well below 50°C without screen recording
  • Tool-calling support
  • Up to 256k tokens (not on this 32GB machine)
  • VLMEvalKit score: 85.6%

FLM supports all XDNA 2 NPUs.

Some links:

submitted by /u/BandEnvironmental834
[link] [comments]