同じ現実世界の機能に対して、8つのAIコーディングモデルをオープンソースのTypeScriptプロジェクトで比較しました。結果は以下のとおりです。

Reddit r/LocalLLaMA / 2026/3/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

記事は、OpenCode Telegram Bot の /rename コマンドを実装するために、独自モデルとオープンソースモデルを含む8つのAIコーディングモデルを比較した実験を報告します。
評価は同じプロンプトを用いて planning mode（コードベースを研究して実装計画を立てる段階）と coding mode（実装作業を行う段階）を実施し、タスクは全てのアプリケーション層とエッジケースに触れ、ツールとして Opencode を使用します。
著者は、中国の安価なオープンソースモデルがベンチマークでプロプライエタリなモデルに近づきつつあると指摘しますが、それが実際のコードベース全体の現実的なパフォーマンスに結びつくかは疑問です。
結果には、価格データ（1Mあたりの入力/出力）、コーディング指数、およびエージェント指数が含まれ、8モデル間のコストと能力の差を示しています。

I compared 8 AI coding models on the same real-world feature in an open-source TypeScript project. Here are the results

AIツールを使ってコーディングする際には、「どのモデルが実際により良いのか」という問いが絶えず浮かびます。合成ベンチマークは往々にして現実を反映しません—モデルはそれらを通過させるよう訓練されている場合があります。孤立した問題を解くのと、現実のコードベースで要件を理解し、プロジェクトのアーキテクチャを把握し、新機能を正しく統合し、何も壊さないようにするという点には大きな差があります。

中国の安価なオープンソースモデルはベンチマークでプロプライエタリなモデルに近づきつつありますが、それが現場でも同じでしょうか？私は実験を実施して確かめることにしました。

プロジェクト

私はオープンソースのプロジェクト — OpenCode Telegram Bot — を保守しています。Telegramを通じてOpencodeの機能にほぼ完全なインターフェースを提供するボットです。プロジェクトはTypeScriptで、grammYフレームワークを使用し、i18nサポートと既存のテストカバレッジを備えています。

タスク

/renameコマンドの実装（現在の作業セッションのリネーム）を選択しました。タスクは過度に複雑ではなく、1つのセッションで達成可能ですが、すべてのアプリケーション層に触れ、複数のエッジケースの処理を要します。

このコマンドはすでにプロジェクトで実装されていました。関連するすべてのコードを元に戻し、結果を評価する際の参照として元の実装を使用しました。

各モデルには同じプロンプトを与え、最初に計画モード（コードベースを研究して実装計画を立てる）、次にコーディングモードで実行しました。使用したツールはOpencodeです。

テストしたモデル

8つの人気モデル、プロプライエタリとオープンソースの両方を対象に、すべて「思考」モードで推論を有効にして評価しました：

モデル	入力 ($/1M)	出力 ($/1M)	コーディング指数*	エージェント性指数*
Claude 4.6 Sonnet	$3.00	$15.00	51	63
Claude 4.6 Opus	$5.00	$25.00	56	68
GLM 5	$1.00	$3.20	53	63

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

Qiita

エッジコンピューティングとローカル処理への大規模な移行

Dev.to

仕様駆動開発における自己改良エージェント

Dev.to

同じ現実世界の機能に対して、8つのAIコーディングモデルをオープンソースのTypeScriptプロジェクトで比較しました。結果は以下のとおりです。

要点

プロジェクト

タスク

テストしたモデル

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る

エッジコンピューティングとローカル処理への大規模な移行

仕様駆動開発における自己改良エージェント

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer