pi agent上でローカルにQwen3.6-35B-A3Bを回していて、catスパムの問題に遭遇しました。エージェントがreadツールを無視してしまい、catで同じファイルを3〜4回読み続けて動けなくなるか、grepせずに2,000行のログ全体を丸ごと出力してしまいます。
代替用に自作ツールを書きました。感覚的には改善したようです。エージェントは呼び出し回数が減り、同じファイルを無闇に読み直すことがなくなり、タスクの完了もより速く見えます。
ただ、実際にそれが本当に良くなっているかを客観的に確かめる方法がまったくありません。
たまたま、うまくいくタスクだけを都合よく選んでいるだけかもしれません。
そこで気になっています——ツールセットが本当に状況を改善しているかを、どうやってテストしていますか? ベンチマークを書きますか?
[link] [comments]




