Claude Codeの公式スキル作成ツールをOpenCodeに移植しました — これで任意のモデルでAIエージェントのスキルを作成・評価できます

Reddit r/LocalLLaMA / 2026/4/11

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 開発者が「評価(eval)駆動」のAIエージェント用スキル作成ツールをオープンソース化しました。TypeScriptを用いて、Anthropicの公式Claude Codeのスキル作成ツールをOpenCodeに移植しています。
  • 本ツールは、インテーク面談(ヒアリング)によるガイド付きスキル作成をサポートし、evalセット(should-trigger/should-not-triggerプロンプト)を自動生成します。さらに、スキルの有無で実行結果を比較することでトリガー精度を測定します。
  • LLMループによりスキルの説明を反復的に最適化します(train/test分割で最大5回)。また、HTMLビューアに加え、分散/ベンチマークのレポートを提供し、人間による確認を可能にします。
  • OpenCodeで動作するよう設計されているため、OpenCodeの300以上のモデル(ローカルでホストしたモデルを含む)を使って、スキルの評価や開発ができます。
  • インストールはnpmのワンコマンド手順で提供され、プロジェクトはApache 2.0ライセンスで公開されており、Anthropicによる元のアプローチに帰属しています。
I ported Anthropic's official skill-creator from Claude Code to OpenCode — now you can create and evaluate AI agent skills with any model

やあ r/LocalLLaMA — AIエージェントのスキルを、評価(eval)主導で開発できるツールをオープンソース化しました。これはClaude Code向けのAnthropic公式スキル作成ツールをベースにしていますが、OpenCodeで動くようにTypeScriptで書き直されています(OpenCodeはローカルを含む300+のモデルをサポートしています)。

問題は何かというと、AIエージェント向けのスキル作成は試行錯誤になることです。スキルを書いて手動でテストし、適切なプロンプトで起動してくれることを期待します。スキルが機能しているかを体系的に測る方法がありません。

このツールでできること:

  • インテーク面談によるガイド付きスキル作成
  • 評価用テストセットを自動生成(起動すべき/起動すべきでないクエリ)
  • スキルあり/なしでevalを実行し、トリガ精度を測定
  • 反復的なLLMループでスキル説明を最適化(60/40のtrain/test分割、最大5回の反復)
  • 人間による確認のためのビジュアルHTMLのevalビューア
  • 反復ごとの分散分析を含むベンチマーク

このコミュニティにとって最も面白い点:OpenCodeがサポートするどのモデルでも動きます。OpenCode経由でローカルモデルを動かしているなら、このツールをそれらで利用できます。

ワンコマンドでインストール:

npx opencode-skill-creator install --global 

Apache 2.0ライセンス。クレジット付きでAnthropicのスキル作成ツールをベースにしています。

GitHub: https://github.com/antongulin/opencode-skill-creator

npm: https://www.npmjs.com/package/opencode-skill-creator

評価(eval)手法、ローカルモデル対応、またはアーキテクチャについての質問には喜んで答えます。

提出者: /u/antonusaca
[link] [comments]