ローカルLLM/ハーネスの組み合わせをベンチマークする

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンSignals & Early TrendsTools & Practical Usage

要点

  • 著者は、PyTorch、JAX、Transformers などを用いるエージェンティックなコーディング課題において、ローカルLLMと「ハーネス」の組み合わせが最も有効かを調べています。
  • 著者は、汚染を避けるために小規模な非公開ベンチマークを実施し、さまざまなモデル/ハーネスの組を評価しました。
  • 投稿では、コミュニティに対して追加で見たいベンチマークや結果の内容を募っています。
  • 関連するWIP(「Harness Bench」)へのリンクが提示されており、ベンチマーク作業が継続中であることが示されています。
Benchmarking Local LLM/Harness Combinations

こんにちは。PyTorch、JAX、Transformers などを使った、エージェント的なコーディングタスク向けに、最適なローカルモデル/ハーネスの組み合わせを探そうとしていたのですが、最終的に小規模なプライベート(汚染を避けるため)なベンチマークを行ってしまいました。見てみたいものがあれば教えてください!

提出者: /u/pminervini
[link] [comments]