みなさんこんにちは。投稿してからしばらく経ちました(少し燃え尽きていました)が、あなたの中には私の過去のSanityHarness関連投稿を見たことがある人もいるかもしれません。いまは、旧リーダーボードと新しいリーダーボードの合計で145件の結果があります。今回の最新の評価の回では、Kimi K2.6-Code-Preview(早期アクセスをありがとう、Moonshot)、Opus 4.7、GLM 5.1、Minimax M2.7などを、私のコーディング評価でテストしました。結果はこちら: https://sanityboard.lr7.dev/
結局どうなの?
Opus 4.7は、本当に改善しています。これは意外でした。ここ最近の「新しい」モデルのアップグレードの多くは、あまり目に見える変化をもたらしていません。Kimi K2.6-code-previewは、現時点ではまだそこまで良くなった感じはしませんが、結論は保留します。もっと実機で触って、他のコーディングエージェントでもテストできたら評価したいです。
GLM 5.1はかなり良さそうです。これらのオープンウェイトモデルはどれも、だいたい同じレベルの実力で、vibetubersがセンセーショナルに言っていることにもかかわらず、OpusやGPT(私は両方をかなり使っています)にはまだまだ届いていません。上位層には、Kimi K2.5やGLM 5.1のようなものがあります(GeminiやSonnetのレベルにかなり近いのではと思っています)。一方で中位層には、Minimax M2.7やQwen 3.6 Plusのようなものがあり、どれも素晴らしいと思います。特に価格の面や、ローカルで動かせる点(M2.7の場合)では。ただし、ここではサイズの制約があります。
ForgeCodeは面白いです。うまく動くと本当にとても良くて、Minimax M2.7の中で最高スコアです。私はこれを使うことはあるのでしょうか?いいえ。UX/DXは、たとえば現在私がいちばん使いたいOpenCodeのようなものとはかなり違います。このエージェントはZshプラグインなので、そういうものが好きなユーザーならForgeCodeをより評価するでしょう。私はForgeCodeを他の何かでテストすることはできませんでした――テストしていた時点では、私が試したほとんどすべての別のモデル/プロバイダーで壊れていました。これは、今すぐおすすめしにくいもう一つの理由でもあります。かなりバグが多いのです。たぶん、しばらく待つのが良いでしょう。PS - 私はForgeCodeを、semantic search(クラウド上での検索)が含まれるForgeCodeサービス有効の状態で使っていました。これを有効にしない通常のForgeCodeでは、おそらくスコアが変わります。
それだけテストしてるの?
Kimi K2.6-code-previewは現在、APIサポートとして来週正式にロールアウトされるまではKimi CLIでのみサポートされています(これは今朝私が受け取った公式の説明です)。とはいえ、Kimi CLIからヘッダーなどをKimi向けのコーディング用oauthプラグインにコピーすれば、OpenCodeでサポートを追加するのは難しくないと思います。時間が見つかれば近いうちにやって、OpenCode上でより早くテストできるようにしたいです。Kimi CLIはOpenAI互換のフォーマットに加えて、Kimi固有の拡張/フィールドを使います。OpenCodeがこれらにすでに対応しているかは分からないので、リポジトリを確認する必要があります。この結果は、たぶん1日ほどでリーダーボードに反映すると思います。
私はQwen 3.6 Plusもテストするつもりでしたが、無料枠がなくなってしまい、私としては支払ってでも使いたいほどの出来ではないと思いました。とはいえ、もしAlibabaで誰か知り合いがいる人がいたら、そこに繋いでください。そうすればテストしてもらえるかもしれません。
SanityHarnessとは?
コーディングエージェントをテスト・評価するために私が作ったハーネスです。以前はターミナルベンチの評価をたくさん回してDiscordで共有していましたが、より似た形で、かつコーディングエージェントに依存しないものが欲しかったのです。多くのエージェントで動くようにするのが面倒で、ほぼ不可能に近かったためです。これって完璧な評価なの?いいえ。シンプルで、自分の必要としていることに集中するように保とうとはしましたが、リーダーボードを作る前からすでにかなり改善していて、その後もコミュニティのフィードバックでさらに改善しました。
このハーネスは、過学習されていそうな学習データではなく、問題解決力でモデルに挑戦させることを目的に選んだ、6つの言語にまたがる多様なタスクに対して動作します。評価中はbubblewrapでエージェントをサンドボックス化し、解答は目的のために作られたDockerコンテナ内で検証されます。フルセットは、プロバイダーとモデルによっておよそ1〜2時間かかります。スコアは、言語の希少性、難解な機能の使用、アルゴリズム上の新規性、エッジケース密度を考慮する式で重み付けされ、重みは最大1.5倍までに制限されています。これらの基準は少し主観的にもなり得るため、調整はかなり保守的です。詳細は下記のリンクにあります。
関連する過去の投稿:
- https://www.reddit.com/r/opencodeCLI/comments/1rfzwg1/i_tested_opencode_on_9_mcp_tools_firecrawl_skills/
- https://www.reddit.com/r/LocalLLaMA/comments/1r9ours/qwen35_plus_glm_5_gemini_31_pro_sonnet_46_three/
- https://www.reddit.com/r/LocalLLaMA/comments/1qp4ftj/i_made_a_coding_eval_and_ran_it_against_49/
GitHub:
締め
これを実現するのに協力してくれた皆さんに大きく感謝します。JunieとMinimaxは、コミュニケーション面でも、これらの実行のための利用方法を提供してくれる面でも、とても良かったです。Factory DroidやMoonshotも、程度は低いですが助けてくれました。GLMにも連絡しようとしましたが、リクエストは通さないと言った後、返事が返ってきませんでした。さらに私が評価を実行しようとしたとき、公式の有料APIで$10くらいをだいぶ食われて、最後まで辿り着けず半分で止まってしまいました。Opusは、フルセットを完了するのにだいたい$6〜$7程度です。さあ、Zai。
あ、そうそう。ここに書くのを忘れていました。LLMの話などをしてみんなで議論したい人がいれば、Discordサーバーがあります。ぜひ参加してください。提案も歓迎ですし、ここで助けを求めることもできます: https://discord.gg/rXNQXCTWDt
[link] [comments]




