カスタムエージェントのツールが本当に良くなっているかを、どう客観的に見分ける？

Reddit r/LocalLLaMA / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

共有:

要点

著者はQwen3.6-35B-A3Bを「pi agent」でローカル実行した結果、ツールの使い方が破綻し、同じファイルを`cat`で3〜4回も読み続けたり、大量のログを丸ごと出力してしまうなどの問題に遭遇したと述べています。
代替となるカスタムツールを自作した後は、主観的には改善したように感じており、ツール呼び出し回数が減り、無作為に同じファイルを読み直すことが減り、タスクの完了が速くなったとしています。
しかし「本当に良くなっているのか」を客観的に判定する方法がなく、うまくいったタスクだけを都合よく選んでいる可能性（チェリーピッキング）もあると問題提起しています。
そのため、ツールセットが本当に改善につながっているかをどうテスト（ベンチマーク）すべきかを他の人に聞いています。
この投稿は、エージェントのツール性能を評価するときに、再現可能なテスト手順や評価指標、対照を含む実験設計の重要性を示唆しています。

pi agent上でローカルにQwen3.6-35B-A3Bを回していて、catスパムの問題に遭遇しました。エージェントがreadツールを無視してしまい、catで同じファイルを3〜4回読み続けて動けなくなるか、grepせずに2,000行のログ全体を丸ごと出力してしまいます。

代替用に自作ツールを書きました。感覚的には改善したようです。エージェントは呼び出し回数が減り、同じファイルを無闇に読み直すことがなくなり、タスクの完了もより速く見えます。

ただ、実際にそれが本当に良くなっているかを客観的に確かめる方法がまったくありません。

たまたま、うまくいくタスクだけを都合よく選んでいるだけかもしれません。

そこで気になっています——ツールセットが本当に状況を改善しているかを、どうやってテストしていますか？ ベンチマークを書きますか？

AI Business

日経XTECH

日経XTECH

Dev.to

Dev.to