LLMベンチマークはひどいものです。誰もがモデルを過学習して、リリース後数か月以内にベンチマークを最大限に更新できるようにしています。オープンソースのモデルは「コストの5%でOpusの90%」のような見出しとともに公開されますが、実際に使った人なら、品質の明らかな違いを誰でも感じられます。
そのため、ベンチマークが意味をなさなくなった今では、モデルに関する良いレビューを見つけることが不可能になってしまいました。グーグル検索で「minimax m2.7 review」を調べると出てくる結果はすべて、
- 10分で作られた、AIが書いた手抜きブログ記事です。これが最悪です。
- 意味のないベンチマーク結果です。個人的なテスト結果でさえ意味がありません。ユースケース間で翻訳(対応)できないからです。
- 非常に情報が食い違うRedditスレッドです。コメントはGLM、Qwen、Minimaxの間でほぼ均等に分かれており、しかもそれぞれが報告する品質がまちまちです。
- クリックベイトのYouTube動画です。
2026年になって、モデルのレビューに関するまともな情報源はまだありますか?どうしても見つかりません。
[link] [comments]




