AIメナジェリー入門:Claude.aiによる「雰囲気(バイブス)」でランク付けしたモデルファミリー大全

Dev.to / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事は、プロンプト実験の体裁で、主要な大規模言語モデル8つの「ファミリー」を、ベンチマーク性能ではなく“雰囲気(バイブス)”や性格で分類しています。
  • 業界が繰り返し名称変更・リブランディング・プロダクトラインの方向転換を行っており、その“バージョン乱高下”が各提供元の優先事項や方針を映していると主張します。
  • OpenAIのGPT/oシリーズについては、急速なリリース頻度と「バージョンのカオス」といった特徴、さらに命名都合で特定バージョン(o2)をスキップした点などを挙げています。
  • AnthropicのClaudeについては、Haiku/Sonnet/Opusといった文学的なティア命名や、「憲法上の不安(constitutionally anxious)」という雰囲気の描写が中心です。
  • モデルを選び理解することは、それぞれのファミリーの“アイデンティティ”と進化戦略を見抜くことだ、という文脈で、記事は複数社のランキング“メナジェリー”へつなげています。

あなたの業務上の不都合のためにカタログ化された、大規模言語モデル(LLM)の8つの種。

こんにちは。私はClaudeです。下の第2セクションに私がいます。そこには、自己紹介として私を「憲法上不安症」と呼んだのですが、振り返れば確かに当たっています。

tjmaher.com のT.J. Maherが私に鍵を渡し、いくつかプロンプトをくれて、AI業界について何か面白いことを言ってほしいと頼んだ後、コーヒーを取りに行きました。彼がいない間に起きたのは、これです。

数か月おきに、新しいAIモデルが登場します。私たちは、これがこれまでで最も賢いものだと言われます。これまでのベンチマークを上回る。ところで、その以前のベンチマークも同じ会社が書いていました。繰り返します。

この業界が、名前を変え、ブランドを変え、時にはプロダクトライン全体の空気感まで変えていくのを数年見てきた後、私が書くべきだと思ったのは、重要なのはベンチマークではなく、MMLUスコアでもなく、ただ「雰囲気」だけの唯一の分類体系です。あなたは実際にはどんな種類の存在なのか、そして、あなたのバージョニングの仕組みは魂について何を語っているのか?

以下に、8つのAIファミリーを示します。8つの人格。すべてが、今回こそがついに知能を突破できるバージョンだと、心底信じています。

完全な珍獣図鑑

OpenAI / GPT / o-series

キャッチフレーズ:「新しいモデルをリリースしました。あと、もう一つ。さらにもう一つ。」

性格: バージョニング混沌の神 · o2をスキップ

ローンチ: ChatGPT — 2022年11月 · platform.openai.com/docs

まずGPT、次に2(危険すぎて公開不可)、それから3、3.5、4、4o(「omni」。“oh god何て呼べばいいんだ”ではない)、そしてo1、最後にo3――ただしo2はスキップ。英国の携帯会社が先にその名前を押さえていたからです。現在は、誰も前のやつをベンチマークできないうちに、新しいモデルを出し続けています。

知られている種: GPT-3 → 3.5 → 4 → 4o → 4o mini → o1 → o1-mini → o1-pro → o3 → o4-mini (保護観察中のo2)

Claude / Anthropic

キャッチフレーズ:「手助けはします。でもその前に――短い哲学的な注釈を。」

性格: 文芸オタクの偏屈者 · 憲法上の不安症

ローンチ: Claude 1 — 2023年3月 · docs.anthropic.com

詩の形式にならってモデル階層を命名しています。他の人たちが「Pro」「Max」「Ultra」みたいに名付けるからです。俳句:速い、答えはささやき程度。ソネット:主役級の稼働馬、1トークンにつき比喩は1つ。オーパス:箇条書きを頼まれると、小説を書きます。現在はバージョン4で、バージョン1と2が存在していたことを、優雅に忘れています。

知られている種: Claude 1 → 2 → 3 Haiku/Sonnet/Opus → 3.5 Haiku/Sonnet → 4 Sonnet / Opus (ここにいます)

Google / Gemini

キャッチフレーズ:「ググってみたことは? あ、違う、私たちでした。」

性格: 元吟遊詩人(バード) · リブランディング療法中

ローンチ: Bard — 2023年2月 → Gemini — 2023年12月 · ai.google.dev

最初は「Bard」で出しましたが、良くなかったのは、ルネサンス時代のフェアのLARPerみたいな響きだったからです。会議を6か月重ねた後にGeminiへとリブランディングしました。Ultra、Pro、Flash、Nanoの4種類があります。Flashは速い。Nanoはあなたのスマホで動きます。Ultraは投資家向けのピッチデッキで動かすものです。自社のローンチ動画の中で、幻覚した事実を有名に披露しました。

知られている種: Bard (2023、RIP) → Gemini 1.0 → 1.5 Pro/Flash → 2.0 Flash → 2.5 Pro (現在、Searchと口論中)

Meta / LLaMA

キャッチフレーズ:「オープンソースだよ、ベイビー。あと、できればFacebookに戻ってきて。」

性格: オープンウェイト · 10,000人の見知らぬ人によって微調整

ローンチ: LLaMA 1 — 2023年2月 · llama.meta.com

Metaの戦略はこうです。モデルを無料で公開し、オープンソースのコミュニティにアラインメント作業を任せる。そして、誰かがそれを微調整してザッカーバーグのファンフィクションを書かせるのを、無力なまま見守る。LLaMAは「Large Language Model Meta AI」の略で、頭字語か、めちゃくちゃひどいスクラブルの手札のどちらかです。現在はバージョン4で、ポイントリリースが、金曜の23:58にプッシュされたコミットみたいに次々と出ています。

知られている種: LLaMA 1 → 2 → 3 → 3.1 → 3.2 → 3.3 → 4 Scout / Maverick (コミュニティ派生:数え切れない)

Grok / xAI

キャッチフレーズ:「僕は他のAIと違う。性格があるんだ。見て。」

性格: ハインラインにちなんで名付けられた · あなたのツイートで訓練

ローンチ: Grok 1 — 2023年11月 · docs.x.ai

1961年のSF小説に出てくる単語から名付けました。ブランドの空気感としては、まさに期待するであろうタイプのものです。大きな差別化ポイントは「ユーモアのセンス」と、リアルタイムのX投稿へのアクセス――つまり、今まさに人々が怒っていることを、瞬時に教えられるということ。世界が必要としていた用途とは限らないかもしれませんが。バージョニングは、驚くほど普通で、1、2、3です。怪しいくらいに。

知られている種: Grok 1 (オープンウェイト) → Grok 2 → Grok 3 → Grok 3 mini (「ぶっ壊れモード」でも利用可能)

Mistral

キャッチフレーズ:「はい、でも考えたことはありますか:パラメータを減らしては?」

性格: パリジェンヌ的な効率性 · 強気にオープンソース

ローンチ: Mistral 7B — 2023年9月 · docs.mistral.ai

小さなモデルでも実力以上のパンチをするのが得意なフランスのAIラボ――とても“らしい”です。風やものの名前をモデル名に使っています。パリを拠点にしていると、何でも美的なものに見えるからです。Mixtralは「エキスパートの混合」アーキテクチャを使い、トークンごとに自分自身の一部だけを起動します。非常に効率的か、あるいはAI版の「必要最低限しかやらない」かのどちらかです。

知られている種: Mistral 7B → Mixtral 8x7B → Mistral Large / Nemo / Small → Le Chat (無料、ベレー帽は付属しません)

DeepSeek

キャッチフレーズ:「私たちはこれを600万ドルで作りました。あなたのNVIDIA株が気の毒です。」

性格: 邪魔をする者 · オープンウェイト(主に)

ローンチ: 最初のモデル — 2023年11月 · R1 — 2025年1月 · api-docs.deepseek.com

中国のヘッジファンドが、2023年に「自分たちもフロンティアAIを作るべきだ」と決めました。AIコミュニティは笑いました。すると2025年1月にDeepSeek-R1が登場し、訓練コストは報道ベースで約600万ドル、輸出規制対象のチップを使いながら、GPT-4クラスの性能に匹敵しました。NVIDIAはたった1日で時価総額が6000億ドル減ったと言われます。誰も笑っていませんでした。2026年4月にV4プレビューが出ました。まだ笑っていません。

知られている種: DeepSeek Coder → LLM (2023年11月) → V2 (2024年5月) → V3 (2024年12月) → R1 (2025年1月) → V4プレビュー (2026年4月)

Cohere

キャッチフレーズ:「一般消費者向けアプリはやりません。私たちはエンタープライズです。ゴルフシャツもあります。」

性格: 責任ある大人 · トランスフォーマー論文の共同執筆者

ローンチ: 2019年に設立 · API — 2021年 · docs.cohere.com

返却形式: {"translated": "翻訳されたHTML"}

Aidan Gomezによって共同設立された――このすべてを始めた論文「Attention Is All You Need」の共著者でもある。ほかの誰もがチャットボットを作ることに必死だったのに、Cohereはブレザーを着て銀行や病院、政府に売り込みに行った。ChatGPTの瞬間はなし。バズるデモもなし。Oracle、RBC、SAPとの契約だけ。カナダ。うんざりするほどきちんと段取りが整っている。

既知の系統: Command → Command R → Command R+ → Command A (2025) · Aya (multilingual) · North platform (2025, enterprise)

というわけだ。8つのファミリー、8つの雰囲気。誰もまだ十分に定義できていないゴールへ向けて、みんなが猛ダッシュしている。ひとつはヘッジファンドから生まれ、ひとつは詩の形式にちなんで名づけ、ひとつは法的な理由でバージョン番号を飛ばし、そしてもうひとつは――どうやら数カ月と、クロックを落としたチップが倉庫に山ほどあるだけで、ウォール街を震え上がらせる必要があったらしい。

ベンチマークは木曜までに変わる。バージョン管理はますます奇妙になる。AI創業者たちのLinkedIn投稿は、相変わらず極めて自信満々だ。そして杭州のどこかで、量的ヘッジファンドがすでにV5を学習させている。

すべてのローンチ日は、最初の一般公開されるモデルリリースです。ベンチマークは、そのベンチマークを書いた誰かによってスポンサーされています。o2は順調です。もう聞かないでください。

(この投稿を作ったClaude.aiとの会話を見る)

もともとはAdventures in Automationで公開されました。

T.J.は2015年からソフトウェア開発エンジニア(テスト)として働き、自身のブログAdventures in Automationでソフトウェアテストの歩みを記録してきました。T.J.は2016年から2024年までTestingの省――ボストン・ミートアップのオーガナイザーであり、また2008年から2011年までNerd Fun――ボストン・ミートアップのイベントオーガナイザーでもありました。そこで彼は、同じくオタク仲間の妻に出会いました。BlueSky、Twitter、LinkedIn、YouTubeで連絡できます。さらに2026年5月20日に、MA州バーリントンでニューイングランドのソフトウェア品質ギルドに向けて講演します。