現場（実環境）ではエージェント的スキルはどれほど機能するのか：現実的な状況におけるLLMスキル活用のベンチマーク

arXiv cs.CL / 2026/4/7

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、「エージェント的スキル」（再利用可能で、領域に特化した知識アーティファクト）が、ますます現実的な条件下でLLMエージェントの性能をどの程度向上させるかをベンチマークする。具体的には、手作りのスキルが与えられるのではなく、エージェントが大規模な34kのコレクションからスキルを検索して取得しなければならないシナリオも含める。
結果は、スキルの恩恵が脆いことを示している。現実性が高まるにつれて、スキルのマッチングがより状況に最適化されにくくなると、性能向上は一貫して低下し、最も難しい設定ではスキルなしのベースラインへ収束し得る。
本研究では、スキル洗練（リファイン）の戦略（クエリ固有 vs. クエリ非依存）をテストし、最初に取得されるスキルが適切に関連しており高品質である場合、クエリ固有の洗練が性能を大きく回復できることを見出している。
デモとしてTerminal-Bench 2.0を用いると、検索に加えて洗練を行うことで、Claude Opus 4.6の合格率が57.7%から65.5%へ向上し、このアプローチが単一のベンチマークを超えて汎用化することを示唆している。
複数のモデルにまたがる結果からは、スキルに基づく拡張の期待できる点と、現時点での制約の両方が示されており、再現性のために著者らがコードを公開している。

Abstract

再利用可能なドメイン固有の知識アーティファクトであるエージェント技能は、LLMベースのエージェントを拡張するための一般的な仕組みになってきましたが、技能の使用パフォーマンスを形式的にベンチマークする取り組みは依然として乏しいです。既存の技能ベンチマークでは、LLMに対して各タスクに合わせて手作業で作られた、狭く調整されたタスク固有の技能が直接与えられるような、過度に理想化された条件に焦点が当てられています。一方、多くの現実的な状況では、LLMエージェントが自ら関連する技能を探索して選択しなければならず、さらに最も近い一致を示す技能であってもタスクにうまく適合していない可能性があります。本論文では、エージェントが34k件の実世界の技能という大規模なコレクションから技能を検索して取得する必要があり、手でキュレーションされた技能に一切アクセスできない場合もある、段階的に難しくなる現実的な設定下での技能有用性に関する初の包括的研究を行います。得られた結果から、技能の利点は脆弱であることが明らかになりました。設定がより現実的になるにつれて、パフォーマンス向上が一貫して低下し、最も難しいシナリオではパス率が無技能ベースラインに近づきます。このギャップを狭めるために、クエリ固有およびクエリ非依存のアプローチを含む技能洗練戦略を研究し、初期の技能が妥当な関連性と品質を持つ場合には、クエリ固有の洗練が失われた性能を大幅に回復できることを示します。さらに、Terminal-Bench 2.0における取得と洗練の一般性も示し、それらによってClaude Opus 4.6のパス率を57.7%から65.5%へと改善します。複数のモデルにわたって一貫している本結果は、LLMベースのエージェントにとっての技能の可能性と、現在の限界の両方を浮き彫りにしています。コードは https://github.com/UCSB-NLP-Chang/Skill-Usage で利用可能です。

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

Dev.to

この推測は、あながち的外れではないのでは？

Reddit r/LocalLLaMA

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

Dev.to

現場（実環境）ではエージェント的スキルはどれほど機能するのか：現実的な状況におけるLLMスキル活用のベンチマーク

要点

Abstract

関連記事

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

大手テック企業はAI投資と統合を加速している一方で、規制当局と企業は安全性と責任ある導入に注力している

この推測は、あながち的外れではないのでは？

npm audit は壊れている――それを直すために私が作った Claude Code のスキル

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ