Moonshot AIのKimi K2.7-Code、思考トークンを30%削減をうたうが実務家はベンチマークに疑問

VentureBeat / 2026/6/13

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

共有:

要点

Moonshot AIはオープンソースのKimi K2.7-Codeを公開し、K2.6比で「過剰な考え込み（overthinking）」を減らして思考トークン使用量を30%削減することを狙ったK2コーディングモデル系の更新版として位置づけています。
K2.7-CodeはK2.6と同じ、トリリオン規模のmixture-of-expertsアーキテクチャを維持しつつ、vLLMまたはSGLangでのデプロイに対応していますが、「thinking mode」専用で温度調整にも対応しておらず（1.0に固定）、出力の決定性をチーム側でチューニングできません。
MoonshotはKimi Code Bench v2やProgram Bench、MLS Bench Liteなどで大きな性能向上を主張していますが、これらはMoonshotが管理するプロプライエタリなベンチマークであり、外部での妥当性には疑問も持たれています。
研究者Elliot ArledgeによるKernelBench-Hard（GPUカーネル最適化系の公開ベンチ）での独立評価では、「より正直だが、より能力が高いわけではない」と示唆されており、また独立系コーディングベンチのDeepSWEにも提出されていないことが指摘されます。
実務面では、思考トークン30%削減が実際に効くならAPIゲートウェイ経由のモデルルーティングにおける推論コスト削減が期待できますが、第三者ベンチでの性能再検証が必要になる可能性があります。

この記事の続きは原文サイトでお読みいただけます。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to