| 複数のGPUをお持ちなら、モデルはこれまでよりずっと高速に動作するようになります 「-sm」はデフォルトの挙動で、「-sm tensor」が新しく試してみるべきものです 「backend-agnostic」とは、これを楽しむためにCUDAが不要だという意味です これは実験的です。あなたの環境では結果が良くない可能性があります(別のモデルを試してください)。警告しました!!! [リンク] [コメント] |
backend-agnostic tensor parallelism は llama.cpp に統合されました
Reddit r/LocalLLaMA / 2026/4/9
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage
要点
- llama.cpp が「backend-agnostic tensor parallelism」を統合し、複数GPUが利用可能な場合にモデルの実行をより高速化できるようになりました。
- この更新では、新しいオプション「-sm tensor」を試せるようになっていますが、「-sm layer」は引き続きデフォルトの動作です。
- 「backend-agnostic」とは、tensor parallelism の恩恵を受けるために特に CUDA が必須ではないことを意味します。
- この機能は実験的として扱われており、モデルによっては結果が良くない可能性があるため、構成ごとに試行錯誤が必要です。




