LLMベンチマーク15種完全解説 SWE-benchからHLEまで公式URLと読み方

Zenn / 2026/4/21

💬 オピニオンTools & Practical UsageModels & Research

要点

  • SWE-benchからHLEまで、LLMのソフトウェア系タスクを評価する主要ベンチマーク15種を網羅的に整理し、それぞれの公式URLと読み方を解説している。
  • 各ベンチマークの位置づけや用途を理解することで、モデル比較や性能評価の際に何を見ればよいか判断しやすくする。
  • ベンチマーク名・読み方の“取りこぼし”を減らし、実務での調査や再現(どの評価セットを使うか)を進めるための参照性を高めている。
  • LLM評価の観点を俯瞰できるため、開発・研究の両方で評価設計や指標選定の検討に役立つ。
LLMベンチマーク15種完全解説 SWE-benchからHLEまで公式URLと読み方 2026年4月、AnthropicがClaude Opus 4.7を発表しました。発表ページには15種類以上のベンチマークが並び、「SWE-bench Verified 87.6%」「GPQA Diamond 94.2%」といった数字が踊っています。しかし、これらのベンチマークが何を測り、どう読むべきかを正確に理解している方はどれほどいるでしょうか。 この記事では、Claude Opus 4.7の発表ページで言及された主要ベンチマーク15種について、公式URL・評価手法・スコアの読み方を体系的に整理...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →