| 制約のあるエージェント的ベンチマーク課題に取り組んでいます。これは、フィードバックを伴う複数回のLLM呼び出しが必要です。 試すべき(または比較されることに関心がある)良い小型モデルはありますか?特に、確実なツール呼び出しができる10B未満の範囲のものに興味があります。 現時点でこちらはこうです: [リンク] [コメント] |
エージェンティックなタスク用のベンチマークを構築しています。テストすべき小型モデルで、まだ入れていないものはありますか?
Reddit r/LocalLLaMA / 2026/3/26
💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research
要点
- 著者は、複数回のLLM呼び出しとフィードバックループを必要とする制約付きのエージェンティック・ベンチマークを構築している。
- 信頼性の高いツール呼び出しを実行できる、小型モデル(特に10Bパラメータ未満)の推奨を求めている。
- この投稿では、モデルの現在の候補リスト/計画(画像リンク経由)を共有しており、比較にすでに検討しているモデルが示されている。
- 同じ評価設定でテストする価値のある追加の小型モデルについて、コミュニティの提案を集めることが目的だ。