AI Navigate

同じ現実世界の機能に対して、8つのAIコーディングモデルをオープンソースのTypeScriptプロジェクトで比較しました。結果は以下のとおりです。

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 記事は、OpenCode Telegram Bot の /rename コマンドを実装するために、独自モデルとオープンソースモデルを含む8つのAIコーディングモデルを比較した実験を報告します。
  • 評価は同じプロンプトを用いて planning mode(コードベースを研究して実装計画を立てる段階)と coding mode(実装作業を行う段階)を実施し、タスクは全てのアプリケーション層とエッジケースに触れ、ツールとして Opencode を使用します。
  • 著者は、中国の安価なオープンソースモデルがベンチマークでプロプライエタリなモデルに近づきつつあると指摘しますが、それが実際のコードベース全体の現実的なパフォーマンスに結びつくかは疑問です。
  • 結果には、価格データ(1Mあたりの入力/出力)、コーディング指数、およびエージェント指数が含まれ、8モデル間のコストと能力の差を示しています。
I compared 8 AI coding models on the same real-world feature in an open-source TypeScript project. Here are the results

AIツールを使ってコーディングする際には、「どのモデルが実際により良いのか」という問いが絶えず浮かびます。合成ベンチマークは往々にして現実を反映しません—モデルはそれらを通過させるよう訓練されている場合があります。孤立した問題を解くのと、現実のコードベースで要件を理解し、プロジェクトのアーキテクチャを把握し、新機能を正しく統合し、何も壊さないようにするという点には大きな差があります。

中国の安価なオープンソースモデルはベンチマークでプロプライエタリなモデルに近づきつつありますが、それが現場でも同じでしょうか? 私は実験を実施して確かめることにしました。

プロジェクト

私はオープンソースのプロジェクト — OpenCode Telegram Bot — を保守しています。Telegramを通じてOpencodeの機能にほぼ完全なインターフェースを提供するボットです。プロジェクトはTypeScriptで、grammYフレームワークを使用し、i18nサポートと既存のテストカバレッジを備えています。

タスク

/renameコマンドの実装(現在の作業セッションのリネーム)を選択しました。タスクは過度に複雑ではなく、1つのセッションで達成可能ですが、すべてのアプリケーション層に触れ、複数のエッジケースの処理を要します。

このコマンドはすでにプロジェクトで実装されていました。関連するすべてのコードを元に戻し、結果を評価する際の参照として元の実装を使用しました。

各モデルには同じプロンプトを与え、最初に計画モード(コードベースを研究して実装計画を立てる)、次にコーディングモードで実行しました。使用したツールはOpencodeです。

テストしたモデル

8つの人気モデル、プロプライエタリとオープンソースの両方を対象に、すべて「思考」モードで推論を有効にして評価しました:

<
モデル 入力 ($/1M) 出力 ($/1M) コーディング指数* エージェント性指数*
Claude 4.6 Sonnet $3.00 $15.00 51 63
Claude 4.6 Opus $5.00 $25.00 56 68
GLM 5 $1.00 $3.20 53 63