AI Navigate

インサイト最新記事一覧 AI大全

エージェンティックなタスク用のベンチマークを構築しています。テストすべき小型モデルで、まだ入れていないものはありますか？

Reddit r/LocalLLaMA / 2026/3/26

💬 オピニオンSignals & Early TrendsTools & Practical UsageModels & Research

原文を読む →

共有:

要点

著者は、複数回のLLM呼び出しとフィードバックループを必要とする制約付きのエージェンティック・ベンチマークを構築している。
信頼性の高いツール呼び出しを実行できる、小型モデル（特に10Bパラメータ未満）の推奨を求めている。
この投稿では、モデルの現在の候補リスト／計画（画像リンク経由）を共有しており、比較にすでに検討しているモデルが示されている。
同じ評価設定でテストする価値のある追加の小型モデルについて、コミュニティの提案を集めることが目的だ。

I'm building a benchmark comparing models for an agentic task. Are there any small models I should be testing that I haven't?

制約のあるエージェント的ベンチマーク課題に取り組んでいます。これは、フィードバックを伴う複数回のLLM呼び出しが必要です。

試すべき（または比較されることに関心がある）良い小型モデルはありますか？特に、確実なツール呼び出しができる10B未満の範囲のものに興味があります。

現時点でこちらはこうです：

https://preview.redd.it/y950e4ri3erg1.png?width=2428&format=png&auto=webp&s=4c4e4000290b56e5955d8d5dc5c53e195409e866

が投稿しました /u/nickl
[リンク] [コメント]

関連記事

CopilotのExcelエージェントを使う、売上集計や分析用ブックを自動生成

日経XTECH

VoxtralResearchVoxtral TTSについて：高速で、即座に適応可能で、音声エージェント向けに臨場感のある発話を生成する最前線のオープンウェイト音声合成モデル

Mistral AI Blog

クラウドAIから専用AIボックスに切り替えた理由（そしてあなたもそうすべき理由）

Dev.to

2026年にMiMo V2 APIを無料で使う方法：完全ガイド

Dev.to

誰も解けないエージェントのメモリ問題：永続的なコンテキストのための実践的アーキテクチャ

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。