現場(実環境)ではエージェント的スキルはどれほど機能するのか:現実的な状況におけるLLMスキル活用のベンチマーク
arXiv cs.CL / 2026/4/7
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「エージェント的スキル」(再利用可能で、領域に特化した知識アーティファクト)が、ますます現実的な条件下でLLMエージェントの性能をどの程度向上させるかをベンチマークする。具体的には、手作りのスキルが与えられるのではなく、エージェントが大規模な34kのコレクションからスキルを検索して取得しなければならないシナリオも含める。
- 結果は、スキルの恩恵が脆いことを示している。現実性が高まるにつれて、スキルのマッチングがより状況に最適化されにくくなると、性能向上は一貫して低下し、最も難しい設定ではスキルなしのベースラインへ収束し得る。
- 本研究では、スキル洗練(リファイン)の戦略(クエリ固有 vs. クエリ非依存)をテストし、最初に取得されるスキルが適切に関連しており高品質である場合、クエリ固有の洗練が性能を大きく回復できることを見出している。
- デモとしてTerminal-Bench 2.0を用いると、検索に加えて洗練を行うことで、Claude Opus 4.6の合格率が57.7%から65.5%へ向上し、このアプローチが単一のベンチマークを超えて汎用化することを示唆している。
- 複数のモデルにまたがる結果からは、スキルに基づく拡張の期待できる点と、現時点での制約の両方が示されており、再現性のために著者らがコードを公開している。




