vllm上で、hugging faceのminimaxリリース直後の生バージョン(https://huggingface.co/MiniMaxAI/MiniMax-M2.7)を、rtx pro 6000を3枚使って動かしています。なので量子化はしていません。そして正直に言うと、何かが変に感じます。
私たちのコーディング環境での同じワークロードでも同様で、コードベース内の問題解決に関する再利用可能な評価(eval)を含め、かなり一貫性がありません。人間が採点すると、いくつかのタスクでは2.5未満のスコアになっています。
スペルミスをすることや、constの例の変数(example const variable = something)が、constvariable =something のようにスペースを入れずに出力されてしまい、後で戻って修正が必要になることも、珍しくありません。
ほかの方もこのモデルで何か変な挙動を経験していますか?HFのリポジトリからまっすぐ(そのまま)ダウンロードし直して2回とも同じ結果でした。
サンプリングパラメータ:
--override-generation-config '{
"temperature": 1.0,
"top_p": 0.95,
"top_k": 40,
"repetition_penalty": 1.15,
"max_tokens": 16384
}'
[link] [comments]

