私の職場には最近、2基の Nvidia H200 GPU(各141GBのHBM3e)を搭載したサーバーが導入されました。彼らは私が「家でもそうしている」ということを知っているので、LLMをテストしてほしいと頼んできました。
小規模なローカル設定の経験はあるものの、282GBのVRAMは全く別世界の代物です。単なる標準的な gpt oss のようなものよりも、もっと「興味深く」かつ強力なものを提案したいと思います。超高速性よりも生の「知能」に興味があります。では、それを搭載するべきモデル/量子化(クォンタイズ)として、どのようなものを勧めますか?
編集: ユースケースについては、実際にはもう少し具体的でした。開発者 IDE のローカルなコーディング(コード補完および生成、さらにはレビュー)にLLMを使いたいと考えています。話を聞いた人も OpenClaw と AI エージェントに非常に興味を持っており、良いモデルを見つけたら私たちが評価できるように一つセットアップできるとのことでした。要するに、私たちにとってのプレイグラウンドです。
[リンク] [コメント]