Moonshot AIのKimi K2.7-Code、思考トークンを30%削減をうたうが実務家はベンチマークに疑問
VentureBeat / 2026/6/13
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research
要点
- Moonshot AIはオープンソースのKimi K2.7-Codeを公開し、K2.6比で「過剰な考え込み(overthinking)」を減らして思考トークン使用量を30%削減することを狙ったK2コーディングモデル系の更新版として位置づけています。
- K2.7-CodeはK2.6と同じ、トリリオン規模のmixture-of-expertsアーキテクチャを維持しつつ、vLLMまたはSGLangでのデプロイに対応していますが、「thinking mode」専用で温度調整にも対応しておらず(1.0に固定)、出力の決定性をチーム側でチューニングできません。
- MoonshotはKimi Code Bench v2やProgram Bench、MLS Bench Liteなどで大きな性能向上を主張していますが、これらはMoonshotが管理するプロプライエタリなベンチマークであり、外部での妥当性には疑問も持たれています。
- 研究者Elliot ArledgeによるKernelBench-Hard(GPUカーネル最適化系の公開ベンチ)での独立評価では、「より正直だが、より能力が高いわけではない」と示唆されており、また独立系コーディングベンチのDeepSWEにも提出されていないことが指摘されます。
- 実務面では、思考トークン30%削減が実際に効くならAPIゲートウェイ経由のモデルルーティングにおける推論コスト削減が期待できますが、第三者ベンチでの性能再検証が必要になる可能性があります。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →