Claude Haiku 4.5 + skill で Opus 4.7 を超えた ― SkillsBench 追試とモデル選定の設計図

Zenn / 4/23/2026

💬 OpinionIdeas & Deep AnalysisModels & Research

共有:

Key Points

Claude Haiku 4.5に「skill」を組み合わせた構成が、SkillsBenchの追試でOpus 4.7を上回る結果になったと報告している。
記事の焦点はベンチマーク“数値の比較”だけでなく、Skill適用によって性能がどのように変わり得るかというモデル選定の考え方にある。
追試（追従検証）によって再現性・設計の妥当性を確認し、単発の評価に留まらない形で議論している。
「軽量モデル＋スキル」といった組み合わせ戦略が、コストや運用面も含めた意思決定に資する“設計図”として整理されている。

SkillsBench（84タスク / 7モデル / 7,308試行）で 61.2% → 84.3%、Opus 4.7（80.5%）を上回った。数字の意味はこうだった。Opus の出力を読み切る方が疲れる日があり、Haiku + skill に降ろした翌日、読み終えた後に時間が余っていた。モデルを替えたんじゃない。モデル選定の判断軸を、1個ずらしただけだ。このノートで分かることSkillsBench 論文が示した「skill を挟むと小型モデルが跳ねる」現象の核心 skill が小型モデルに効く「3つのメカニズム」僕の Claude Code 環境（brain）での再現検証結果 ...

Continue reading this article on the original site.

Read original →