要旨: スキル蒸留パイプラインは、LLMエージェントの軌跡から再利用可能なルールを学習しますが、重要な信号を欠いています。それは、各ステップのコストがどれほどかという情報です。ステップごとのコストがないと、パイプラインはバグを直すために不足しているステップを追加することと、成果に一度も影響しなかった高価なステップを削除することとを区別できません。私たちは ClawTrace を導入します。ClawTrace は、エージェントセッション中に行われたすべての LLM 呼び出し、ツールの使用、およびサブエージェントの生成を記録し、各セッションを TraceCard にコンパイルするエージェント追跡プラットフォームです。TraceCard は、ステップごとの USD コスト、トークン数、および冗長性フラグを含むコンパクトな YAML 要約です。ClawTrace 上に構築された CostCraft は、TraceCard を読み取り、3種類のスキルパッチを生成する蒸留パイプラインです。成功につながった挙動を保持する preserve パッチ。重要でなかった高価なステップを削除する prune パッチで、それぞれは名前が付けられた高コストのステップに対する反実仮想的な(counterfactual)論証によって裏付けられています。そして oracle の証拠に基づく失敗を修正する repair パッチです。30個の保持データ(held-out)SpreadsheetBench タスクに対するアブレーションでは、コスト帰属と prune パッチの両方が、品質の退行(regression)を独立して低減することが示されました。同じスキルを 30 個の無関係な SkillsBench タスクに適用すると、思いがけない非対称性が現れます。prune ルールはベンチマークをまたいで転移し、中央値のコストを32%削減しました。一方、ベンチマーク固有の慣習に基づいて学習された preserve ルールは、新しいタスクタイプに対して退行を引き起こしました。私たちは、コストを意識したエージェント研究のためのオープンなインフラとして ClawTrace と TraceCards を公開します。
ClawTrace:コストを意識したトレーシングによるLLMエージェントのスキル蒸留
arXiv cs.AI / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- スキル蒸留では、エージェントの軌跡に紐づく各ステップのコスト情報が不足しているため、バグ修正に必要なステップを追加すべきか、結果に影響しない高価なステップを削除すべきかをうまく判断できません。
- 提案手法ClawTraceは、LLM呼び出し・ツール利用・サブエージェント生成の全履歴を記録し、それらをTraceCard(YAML)としてまとめることで、ステップごとのUSDコスト、トークン数、冗長性フラグを可視化します。
- さらにCostCraftでは、TraceCardからpreserve(成功につながった行動を保持)、prune(高コストだが不要なステップを反事実で正当化して削除)、repair(オラクル根拠で失敗を修正)の3種類のスキルパッチを生成します。
- SpreadsheetBenchの30タスクでのアブレーションにより、コスト帰属とpruneパッチはいずれも品質低下の回帰を独立して抑制できることが示されます。
- SkillsBenchの30タスクでの転用実験では、pruneルールはうまく移転して中央値コストを32%削減する一方、preserveルールはベンチ固有の慣習により新しいタスクで回帰を引き起こしうることが分かります。