https://github.com/woct0rdho/ComfyUI-FeatherOps
ComfyUIで取り組んでおり、カーネルはLLMトレーニングにも使用できます。
RDNA3 GPUはネイティブなfp8をサポートしていませんが、fp8で驚くべき速度向上を確認できます。これはハードウェアの理論上の最大性能に非常に近く、ROCmのfp16 matmulのように最大性能の半分しか到達しないわけではありません。
現状ではComfyUIでの大幅な速度向上というよりは概念実証です。元のFeatherカーネルが u/Venom1806 (SuriyaaMM) によって提案されて以来、さらにどのように最適化できるか見てみましょう。
[リンク] [コメント]

