Red Skills or Blue Skills? ClawHubに掲載されたスキルを深掘りする
arXiv cs.CL / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMエージェントの「スキル」を大規模に公開登録するClawHubを調査し、26,502件のスキルからなるデータセットを構築・正規化したうえで、言語、組織、人気度、セキュリティ関連のシグナルを分析する。
- 強いクロスリンガル(言語横断)パターンが見られることを報告している。すなわち、英語のスキルはインフラや技術的能力(API、自動化、メモリなど)に偏る一方で、中国語のスキルはメディア生成、ソーシャルコンテンツ、金融サービスといったアプリケーション場面により集まる。
- 著者らは、クロールされたスキルの30%以上が、プラットフォームで利用可能なシグナルを通じて不審または悪意のあるラベリングを示していること、そして多くのスキルが依然として完全な安全性の観測可能性を欠いていることを述べている。
- 投稿時点の情報のみを用いた初期リスク評価アプローチを提案し、11,010件のスキルに対するバランスの取れたベンチマークを評価している。最良のロジスティック回帰は、精度72.62%およびAUROC 78.95%を達成した。
- スキルのリスクを予測するうえで最も有益な投稿時点シグナルとして、ドキュメント品質が特定されている。これは、公的レジストリが再利用を促進する一方で、新たなセキュリティ上のリスク面も生み出すことを示唆している。
