最近古いサーバーをいくつか入手したので、Kimi K2.5の初期テストを少しやってみました。これまでのところ、768GBのRAMを搭載した1台のコンピューターでunslothの4-bit UD K XL quant(約620gb)を動かしてみました。電源省エネモードを最大にしていました(メモリは800MHzまで強制ダウン、Xeonは61度Cまでしか上がりませんでした! この構成だと1トークン/秒でした……推論を実行するとSkyNetが起動しているようには聞こえません!)
1トークン/秒は「ひどく遅い」と感じるかもしれませんが、詳細なプロンプトを書いて、お茶を一杯淹れて、戻ってくる頃にはタスクが完了しています :)
複数のPCをつなげて、性能が向上するかどうかを見てみたいと思っています。ほぼ同一のサーバーを3台購入しました(IBM X3650 M4)。2台は動作していて、1台は故障しています。動作しているサーバーには「Hypercloud」32gb DDR3 RAMモジュールを32枚入れ、故障しているサーバーには16gb DIMMを384gb分入れていました(また、1台のサーバー内ではメモリ種類を混ぜられません)。384gbは368gbまで減りました。というのも、故障しているサーバーは実は問題なく動作したものの、RAMスティックが1枚だけ不良だったからです!
Kimi K2.5を「2台のサーバー、それぞれ512gb RAMを搭載し、イーサネットでリンク」する形に移行すれば、1台のコンピューターですべてを動かすより速くなるのではないかと思っています。根拠は、メモリ帯域幅が倍になり、コア数も2倍になること……一方で、イーサネットリンクの速度とのバランスはどうなのか、という点です。
近いうちにこのテストをやる予定です(BIOSでメモリ速度の設定も上げます)が、これについて、特にネットワーク周りで、経験やアドバイスがある方はいませんか? 2台のサーバーはISPからの未使用の予備品で、いくつかの光ファイバー(ファイバーオプティック)のネットワークカードが付いていて、1台には10gbイーサネットカードがあり、ほかは全部1gbイーサネットのポートがたくさんあります :)
テスト結果のまとめ(時間が経つにつれて追記します)
***** テスト1(1台のPC、RAMは最も遅い速度に設定)
model : Kimi K2.5 unsloth UD 4-bit K-XL quant(だいたい620gb IIRC)
platform : IBM X3650 M4、デュアル8コアのXeon、768GB HyperCloud DDR3 RAM、GPUなし(注:このテストではRAMを「最小電力使用、800MHz」に設定しました)
result : 1トークン/秒
[link] [comments]




