誰もが自分のエージェントのほうが優れていると言う。だが誰もそれを証明できない。
エージェントの評価には問題がある。技術的にビルディングの評価をする種類の問題ではなく、「そもそも何が“より良い”なのか」を理解するという根本的な問題だ。
なぜエージェント評価は難しいのか:
タスクはオープンエンドだ。 エージェントを分類器のようにベンチマークすることはできない。タスク空間は無限だ。成功は、毎回の実行で変わる文脈に左右される。
成功は文脈依存だ。 同じエージェントでも、あるユーザーにはタスクで成功し、別のユーザーには失敗することがある。エージェントのせいではなく、環境、開始状態、制約のせいだ。
人間による評価はノイズが多い。 エージェント評価のゴールドスタンダードは人間の判断だ。しかし人は意見が食い違い、疲れることもあり、基準も異なる。ある人の成功は別の人の失敗になり得る。
基準は常に動き続ける。 エージェントが上達するにつれて、期待値も移り変わる。半年ほど前に印象的だったタスクは、今では最低ライン(当たり前にできていてほしい水準)に過ぎない。評価は動く目標だ。
その代わりに測っているもの:
成功そのものは直接測れないため、代理指標を測っている:
- タスク完了率
- ツール利用の正確性
- 会話ターン数
- 人間の介入頻度
- 完了までの時間
これらは有用なシグナルだ。だが、エージェントが本当に「より良い」のかを知るのとは同じではない。
本当の問題:
ほとんどのエージェントのベンチマークは、特定の条件下でエージェントが特定のタスクを完了できるかどうかを試す。しかし、時間とともに改善しているかを検証するものではない。
過ちから学び、ユーザーの嗜好に適応し、使うほど上達するエージェントは、静的なベンチマークでうまくいくだけのエージェントとは、本質的に別物だ。
しかし私たちは学習を測れていない。測っているのはパフォーマンスだ。
本当の評価はどのようなものになるべきか:
- 縦断的研究:100セッションを超えてエージェントは改善するのか?
- トランスファータスク:ある領域で得た知識を別の領域に適用できるか?
- リカバリー指標:エージェントが失敗したとき、どう応答するのか?
- ユーザー固有の適応:この特定のユーザーに対してエージェントはより良くなるのか?
これらは測るのがより難しい。だが、私たちが本当に気にしていることにより近い。
気まずい真実:
私たちは、評価できるスピードよりも速くエージェントを作っている。毎週、新しいモデル、新しいフレームワーク、新しいツールが出てくる。だが、評価のインフラはそれに遅れている。
より良い評価がなければ、意味のない可能性がある指標の最適化をしてしまう。
より良いエージェントには、より良いベンチマークが必要だ。難しいタスクではなく、「成功」が何を意味するのかを測るより良い方法が必要なのだ。




