私はMac Studio Ultra(512GBのRAM)を使っていて、ここ数か月ほどローカルLLMをそれでいろいろ試しています。
私の作業の大半は、データ量が多いプロトタイピングと小規模なモデル実験です(主に推論パイプラインのテスト、埋め込みの扱い、そして研究スタイルの分析のために、必要に応じてより大きなコンテキストのモデルを動かすことがあります)。またAIツールや自動化ワークフロー周りのソフトウェア開発もよく行いますが、生産環境のトレーニング規模では何もしていません。
正直なところ、今の私のワークフローに必要な範囲をはるかに超えた性能のマシンだと感じています。
そこで、同様のセットアップを他の人がどう活用して、より効果的に使えているのかを理解したいと思っています。
いくつか気になっていることがあります:
このくらいのRAMを搭載したシステムで、現実的にどんなものを動かしていますか?
ローカル環境で~70Bモデルを超えることは、本当に効果が出ているのでしょうか?
GPU/計算の負荷が、本当のボトルネックになるのはどのあたりからですか?メモリではなくなるのはいつですか?
こういうセットアップが実際に活きるワークフローはありますか(複数モデルのパイプライン、重いコンテキスト、並列推論など)?
今は主にOllama / MLX / Pythonベースの推論スタックのようなツールを使っていますが、ハードウェアをきちんと活用できていないように感じています。
[link] [comments]




