Moonshot AIのKimi K2.7-Code、思考トークンを30%削減をうたうが実務家はベンチマークに疑問

VentureBeat / 2026/6/13

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Moonshot AIはオープンソースのKimi K2.7-Codeを公開し、K2.6比で「過剰な考え込み(overthinking)」を減らして思考トークン使用量を30%削減することを狙ったK2コーディングモデル系の更新版として位置づけています。
  • K2.7-CodeはK2.6と同じ、トリリオン規模のmixture-of-expertsアーキテクチャを維持しつつ、vLLMまたはSGLangでのデプロイに対応していますが、「thinking mode」専用で温度調整にも対応しておらず(1.0に固定)、出力の決定性をチーム側でチューニングできません。
  • MoonshotはKimi Code Bench v2やProgram Bench、MLS Bench Liteなどで大きな性能向上を主張していますが、これらはMoonshotが管理するプロプライエタリなベンチマークであり、外部での妥当性には疑問も持たれています。
  • 研究者Elliot ArledgeによるKernelBench-Hard(GPUカーネル最適化系の公開ベンチ)での独立評価では、「より正直だが、より能力が高いわけではない」と示唆されており、また独立系コーディングベンチのDeepSWEにも提出されていないことが指摘されます。
  • 実務面では、思考トークン30%削減が実際に効くならAPIゲートウェイ経由のモデルルーティングにおける推論コスト削減が期待できますが、第三者ベンチでの性能再検証が必要になる可能性があります。

この記事の続きは原文サイトでお読みいただけます。

原文を読む →