ローカルでminimax 2.7を動かしている方々、どう感じていますか?

Reddit r/LocalLLaMA / 2026/4/17

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • Redditのユーザーが、Hugging FaceのリリースからMiniMax-M2.7(量子化なしのraw)をvLLM経由で3枚のRTX 6000 GPUで実行していると報告し、モデルの挙動が「おかしい」と感じたと述べています。
  • 同じコーディング/評価ワークロードでMiniMax 2.5と比べて結果が一貫しないことに気づいており、人間の評価者による採点も一部のタスクで低くなったとしています。
  • ユーザーは、綴りミスやフォーマット/スペースの誤り(例:`const variable`のようなトークンが`constvariable`のように結合される)といった、目立つ品質面の問題も指摘しています。
  • Hugging Faceリポジトリからモデルを2回ダウンロードし直したものの、問題は解消しなかったと報告されています。
  • 投稿では、他のローカル利用者に経験を尋ねるとともに、使用したサンプリングパラメータ(temperature 1.0、top_p 0.95、top_k 40、repetition_penalty 1.15、max_tokens 16384)も掲載されています。

vllm上で、hugging faceのminimaxリリース直後の生バージョン(https://huggingface.co/MiniMaxAI/MiniMax-M2.7)を、rtx pro 6000を3枚使って動かしています。なので量子化はしていません。そして正直に言うと、何かが変に感じます。

私たちのコーディング環境での同じワークロードでも同様で、コードベース内の問題解決に関する再利用可能な評価(eval)を含め、かなり一貫性がありません。人間が採点すると、いくつかのタスクでは2.5未満のスコアになっています。

スペルミスをすることや、constの例の変数(example const variable = something)が、constvariable =something のようにスペースを入れずに出力されてしまい、後で戻って修正が必要になることも、珍しくありません。

ほかの方もこのモデルで何か変な挙動を経験していますか?HFのリポジトリからまっすぐ(そのまま)ダウンロードし直して2回とも同じ結果でした。

サンプリングパラメータ:

--override-generation-config '{

"temperature": 1.0,

"top_p": 0.95,

"top_k": 40,

"repetition_penalty": 1.15,

"max_tokens": 16384

}'

submitted by /u/laterbreh
[link] [comments]