Kimi K2.5 - GPUなしでローカル実行。複数のPCに分散できる?

Reddit r/LocalLLaMA / 2026/3/28

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、Kimi K2.5(Unsloth 4-bit UD K-XL量子化、約620GB)をGPUなしでデュアルXeonサーバにローカル実行した初期テスト結果を報告している。電力節約用のRAM設定により、約1トークン/秒を達成した。
  • セットアップは遅いものの、長いプロンプトでは実用可能だと観察しており、推論時でも低電力構成であればシステムが大きく「覚醒」するわけではない、という結論に至っている。
  • 著者は、同一構成の2台のサーバに大容量RAM(例:各512GB)を搭載し、イーサネットで接続して負荷を分割することで性能が向上するかを評価する予定だ。
  • 仮説としては、メモリ容量を2倍にし、コア数/帯域も増やすことで改善し得る一方で、ローカルのメモリアクセスに比べてイーサネット回線がボトルネックになるのではないかを懸念している。
  • そこで、特にネットワーク/トポロジに関して助言を求めている。予備のISPサーバで利用可能なネットワーク機器として、10GbEや各種1GbEポート、さらに一部ファイバ対応カードがあることに言及している。

最近古いサーバーをいくつか入手したので、Kimi K2.5の初期テストを少しやってみました。これまでのところ、768GBのRAMを搭載した1台のコンピューターでunslothの4-bit UD K XL quant(約620gb)を動かしてみました。電源省エネモードを最大にしていました(メモリは800MHzまで強制ダウン、Xeonは61度Cまでしか上がりませんでした! この構成だと1トークン/秒でした……推論を実行するとSkyNetが起動しているようには聞こえません!)

1トークン/秒は「ひどく遅い」と感じるかもしれませんが、詳細なプロンプトを書いて、お茶を一杯淹れて、戻ってくる頃にはタスクが完了しています :)

複数のPCをつなげて、性能が向上するかどうかを見てみたいと思っています。ほぼ同一のサーバーを3台購入しました(IBM X3650 M4)。2台は動作していて、1台は故障しています。動作しているサーバーには「Hypercloud」32gb DDR3 RAMモジュールを32枚入れ、故障しているサーバーには16gb DIMMを384gb分入れていました(また、1台のサーバー内ではメモリ種類を混ぜられません)。384gbは368gbまで減りました。というのも、故障しているサーバーは実は問題なく動作したものの、RAMスティックが1枚だけ不良だったからです!

Kimi K2.5を「2台のサーバー、それぞれ512gb RAMを搭載し、イーサネットでリンク」する形に移行すれば、1台のコンピューターですべてを動かすより速くなるのではないかと思っています。根拠は、メモリ帯域幅が倍になり、コア数も2倍になること……一方で、イーサネットリンクの速度とのバランスはどうなのか、という点です。

近いうちにこのテストをやる予定です(BIOSでメモリ速度の設定も上げます)が、これについて、特にネットワーク周りで、経験やアドバイスがある方はいませんか? 2台のサーバーはISPからの未使用の予備品で、いくつかの光ファイバー(ファイバーオプティック)のネットワークカードが付いていて、1台には10gbイーサネットカードがあり、ほかは全部1gbイーサネットのポートがたくさんあります :)

テスト結果のまとめ(時間が経つにつれて追記します)

***** テスト1(1台のPC、RAMは最も遅い速度に設定)

model : Kimi K2.5 unsloth UD 4-bit K-XL quant(だいたい620gb IIRC)

platform : IBM X3650 M4、デュアル8コアのXeon、768GB HyperCloud DDR3 RAM、GPUなし(注:このテストではRAMを「最小電力使用、800MHz」に設定しました)

result : 1トークン/秒

submitted by /u/Shipworms
[link] [comments]
広告