どのモデルを試すべき？

Reddit r/LocalLLaMA / 2026/5/3

💬 オピニオンSignals & Early TrendsTools & Practical Usage

共有:

要点

著者は、Python/C++でのコーディングや技術レポート作成といった作業に合う、追加で試すべきLLMの候補を求めている。
現在はQwen3.6 27BとGemma4 31Bを主に使っており、過去にDeepseekも試したが実用上の速度が遅すぎたという。
速度改善の方法を聞きたいのではなく、スループットの制約により適した別のモデルを提案してほしい、という意図を明確にしている。
使用している環境はMI50 32GBとV100 32GBで、実運用で10 tokens/secを下回ると「つらいほど遅い」と述べている。
VRAMが足りない場合は量子化や可能ならモデル自体の縮小で対応しており、遅延が許容できないモデルは見送る方針だ。

私の現在のワークフロー（Python/C++でのコーディングと技術レポート）では、主にQwen3.6 27BとGemma4 31Bを使っています。過去にはDeepseekのような他のモデルも試しましたが、結果はそこそこ良かったものの、とにかく遅くて大変でした……。なので、私が見落としていて試すべきモデルは何かありますか？

編集：明確に言うと、それらのモデルをより速く動かす方法を聞いているのではありません。私が聞きたいのは、他にどのモデルを試すべきかということです。「全部試せ」と言われても助けになりません。というのも、まず利用可能なモデルは無数にあり、地球上の誰もそれらを現実的に全部試すことはできないからです。そして次に、もし全部試す気があるなら、ここで質問はしません。利用可能なVRAMより多いモデルを見つけた場合は、できる限り量子化またはモデル自体を縮小します。それでも無理なら、遅すぎるのでそのモデルは諦めます。

システム構成：MI50 32GB + V100 32GB。さらに、実運用で10tps未満は「痛いほど遅い」です。

投稿日： /u/WhatererBlah555
[link] [comments]

Black Hat USA

AI Business

光電融合、新プレーヤー・新技術が続々データセンター省電力化

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

リコーが日本語性能でGPT-5に匹敵する金融特化型LLMを開発、業務遂行能力を強化

日経XTECH

AIでAIコンテンツをモデレーションしてみた—AIHallucination開発で学んだこと

Dev.to

どのモデルを試すべき？

要点

関連記事

Black Hat USA

光電融合、新プレーヤー・新技術が続々データセンター省電力化

データセンター、新技術が育つ場へ日本の部材産業にチャンス

リコーが日本語性能でGPT-5に匹敵する金融特化型LLMを開発、業務遂行能力を強化

AIでAIコンテンツをモデレーションしてみた—AIHallucination開発で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat USA

光電融合、新プレーヤー・新技術が続々 データセンター省電力化

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

リコーが日本語性能でGPT-5に匹敵する金融特化型LLMを開発、業務遂行能力を強化

AIでAIコンテンツをモデレーションしてみた—AIHallucination開発で学んだこと

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

光電融合、新プレーヤー・新技術が続々データセンター省電力化

データセンター、新技術が育つ場へ日本の部材産業にチャンス