広告

自身のエージェント型テキストto-SQLベンチマークで、可能な限り多くのローカルの小規模モデルやOpenRouterのモデルをテストしてみた。驚きが続出……

Reddit r/LocalLLaMA / 2026/3/30

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 開発者が https://sql-benchmark.nicklothian.com/ にて、エージェント型のテキストto-SQLベンチマークを公開した。英語の質問をSQLに変換し、クエリを実行し、エラーを修正するためのデバッグラウンド数を限定して用いる。
  • このベンチマークは短時間(25問)かつ高速(ほとんどのモデルで5分未満)となるよう設計されており、異なるLLM設定間での実用的な比較を可能にする。
  • 結果では、上位のオープンモデルとして kimi-k2.5、Qwen 3.5 397B-A17B、Qwen 3.5 27B が挙がり、テストでは NVIDIA Nemotron-Cascade-2-30B-A3B も非常に強い性能を示し(Codex 5.3 に一致する場面も含む)、
  • 著者は、llama.cpp のWASM版を使って、ユーザー自身のサーバーに対してベンチマークを実行できる方法を追加し、ローカル評価のハードルを下げた。
  • この記事は、ベンチマークの潜在的なv2を改善するために、コミュニティからスコアやフィードバックの共有を呼びかけている。
I tested as many of the small local and OpenRouter models I could with my own agentic text-to-SQL benchmark. Surprises ensured...

先週、テストすべき追加モデルについていくつか意見を求めました。全部追加したので、ベンチマークはこちらで利用できます:https://sql-benchmark.nicklothian.com/

当時のエージェントが何をしているかについてはあまり詳しく書きませんでしたが、簡単に言うと、次のような英語クエリ――「注文行、売上高、販売数量、単位あたり売上高(総売上÷総販売数量)、サブカテゴリ内の各商品の平均リスト価格、粗利益、各商品サブカテゴリのマージン率」――を受け取り、SQLに変換して、一連のデータベース・テーブルに対してテストします。

クエリ結果を確認し、それを修正して問題を直すこともできますが、そのためのデバッグラウンド数には上限があります。

ベンチマークは意図的に短く(25問)、実行も速い(ほとんどのモデルで5分未満)ため、さまざまな構成などを試せますが、それでも最良のモデルと他のモデルをきちんと分けられるくらいには難しくしています。

さらに、あなたの自前サーバーに対して自分で実行できる機能も追加しました(Llama.cppのWASM版のおかげです)。

見つけて面白かったこと:

  • 最も優秀なオープンモデルはkimi-k2.5、Qwen 3.5 397B-A17B、そしてQwen 3.5 27B(!)です。
  • NVIDIA Nemotron-Cascade-2-30B-A3B は Qwen 3.5-35B-A3B を上回り、Codex 5.3 と同等です。
  • Mimo v2 Flash は素晴らしいモデルです。

みなさんが出したスコアをぜひ見てみたいですし、v2で何を変えるべきかも知りたいです!

submitted by /u/nickl
[link] [comments]

広告