AI Navigate

FeatherOps: ネイティブ FP8 がない RDNA3 上での高速 FP8 行列積

Reddit r/LocalLLaMA / 2026/3/22

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • FeatherOps は RDNA3 GPU 上でネイティブ FP8 サポートがなくても高速な FP8 行列積を実証し、ハードウェアの理論上の最大値に近いパフォーマンスを達成します。
  • 現在 ComfyUI 内の概念実証として位置づけられており、推論だけでなく LLM のトレーニングカーネルにも適用が見込まれます。
  • プロジェクトは Venom1806(u/Venom1806 / SuriyaaMM)による元の Feather カーネルに系譜を持ち、さらなる最適化を目指しています。
  • GitHub および Reddit のリンクが提供されており、継続的なコミュニティ協力と反復的な開発が示されています。

https://github.com/woct0rdho/ComfyUI-FeatherOps

ComfyUIで取り組んでおり、カーネルはLLMトレーニングにも使用できます。

RDNA3 GPUはネイティブなfp8をサポートしていませんが、fp8で驚くべき速度向上を確認できます。これはハードウェアの理論上の最大性能に非常に近く、ROCmのfp16 matmulのように最大性能の半分しか到達しないわけではありません。

現状ではComfyUIでの大幅な速度向上というよりは概念実証です。元のFeatherカーネルが u/Venom1806 (SuriyaaMM) によって提案されて以来、さらにどのように最適化できるか見てみましょう。

投稿者 /u/woct0rdho
[リンク] [コメント]