エージェンティックなタスク用のベンチマークを構築しています。テストすべき小型モデルで、まだ入れていないものはありますか?

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 著者は、複数回のLLM呼び出しとフィードバックループを必要とする制約付きのエージェンティック・ベンチマークを構築している。
  • 信頼性の高いツール呼び出しを実行できる、小型モデル(特に10Bパラメータ未満)の推奨を求めている。
  • この投稿では、モデルの現在の候補リスト/計画(画像リンク経由)を共有しており、比較にすでに検討しているモデルが示されている。
  • 同じ評価設定でテストする価値のある追加の小型モデルについて、コミュニティの提案を集めることが目的だ。
I'm building a benchmark comparing models for an agentic task. Are there any small models I should be testing that I haven't?

制約のあるエージェント的ベンチマーク課題に取り組んでいます。これは、フィードバックを伴う複数回のLLM呼び出しが必要です。

試すべき(または比較されることに関心がある)良い小型モデルはありますか?特に、確実なツール呼び出しができる10B未満の範囲のものに興味があります。

現時点でこちらはこうです:

https://preview.redd.it/y950e4ri3erg1.png?width=2428&format=png&auto=webp&s=4c4e4000290b56e5955d8d5dc5c53e195409e866

が投稿しました /u/nickl
[リンク] [コメント]