トークン予算がエージェントのワークフロー設計の一部になりつつあると思います。
毎回の実行が高く感じられると、人は十分にテストしなくなります。クオータを節約し、プロンプトに過剰に考え込み、失敗パターンを明らかにする反復を避けるのです。
逆に、毎回の実行が安く感じられると、人は過度に委任できます。自分たちがレビューできる以上の出力を大量に生成してしまいます。
だから、有用な問いは「どのモデルが最適か?」ではありません。
それは:
どのステップに、どのレベルのモデルを割り当てるべきか?
私の現在のルール:
- 低コスト/推論が弱めの実行は、範囲が定まっていてレビュー可能な反復に使う
- より強いモデルは、不確実性、難しい判断、デバッグ、そしてレビューに使う
- 受け入れ(アクセプト)には人のレビュー
不明確なタスクにプレミアムな推論コストを使わないこと。
まずタスクを小さくします。
次にモデルを選びます。
[link] [comments]




