| AIツールを使ってコーディングする際には、「どのモデルが実際により良いのか」という問いが絶えず浮かびます。合成ベンチマークは往々にして現実を反映しません—モデルはそれらを通過させるよう訓練されている場合があります。孤立した問題を解くのと、現実のコードベースで要件を理解し、プロジェクトのアーキテクチャを把握し、新機能を正しく統合し、何も壊さないようにするという点には大きな差があります。 中国の安価なオープンソースモデルはベンチマークでプロプライエタリなモデルに近づきつつありますが、それが現場でも同じでしょうか? 私は実験を実施して確かめることにしました。 プロジェクト私はオープンソースのプロジェクト — OpenCode Telegram Bot — を保守しています。Telegramを通じてOpencodeの機能にほぼ完全なインターフェースを提供するボットです。プロジェクトはTypeScriptで、grammYフレームワークを使用し、i18nサポートと既存のテストカバレッジを備えています。 タスク
このコマンドはすでにプロジェクトで実装されていました。関連するすべてのコードを元に戻し、結果を評価する際の参照として元の実装を使用しました。 各モデルには同じプロンプトを与え、最初に計画モード(コードベースを研究して実装計画を立てる)、次にコーディングモードで実行しました。使用したツールはOpencodeです。 テストしたモデル8つの人気モデル、プロプライエタリとオープンソースの両方を対象に、すべて「思考」モードで推論を有効にして評価しました:
|
同じ現実世界の機能に対して、8つのAIコーディングモデルをオープンソースのTypeScriptプロジェクトで比較しました。結果は以下のとおりです。
Reddit r/LocalLLaMA / 2026/3/15
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 記事は、OpenCode Telegram Bot の /rename コマンドを実装するために、独自モデルとオープンソースモデルを含む8つのAIコーディングモデルを比較した実験を報告します。
- 評価は同じプロンプトを用いて planning mode(コードベースを研究して実装計画を立てる段階)と coding mode(実装作業を行う段階)を実施し、タスクは全てのアプリケーション層とエッジケースに触れ、ツールとして Opencode を使用します。
- 著者は、中国の安価なオープンソースモデルがベンチマークでプロプライエタリなモデルに近づきつつあると指摘しますが、それが実際のコードベース全体の現実的なパフォーマンスに結びつくかは疑問です。
- 結果には、価格データ(1Mあたりの入力/出力)、コーディング指数、およびエージェント指数が含まれ、8モデル間のコストと能力の差を示しています。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る
Qiita
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to