GPT-4o 対 Claude 対 Gemini: 私が同じ50のプロンプトを3者全てに実行して検証したので、あなたは試す必要がありません

Dev.to / 2026/3/15

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は OneAIWorld を用いて GPT-4o、Claude 3、Gemini 1.5 Pro の構造化されたクロスモデル比較を実施し、50件のプロンプトを5つのカテゴリにわたって評価した。
  • コード生成では GPT-4o が勝利、よりクリーンで実行可能なコードとより良いインラインコメントを提供。Claude は僅差で近いが過剰説明になりがちで、Gemini は null 入力のようなエッジケースで苦戦した。
  • 構造化出力では GPT-4o が信頼性の高い JSON と正確なスキーマ適合をリード。Claude は時々 JSON の前に文章を追加することがあり、Gemini は複雑な構造で時折壊れた JSON を返した。
  • クリエイティブライティングでは Claude が勝利。より自然で人間らしい文体を提供し、製品説明とメール件名で卓越していた。一方、GPT-4o は有能だが“AIっぽい”コピーになりがちだった。
  • 推論/論理では Claude が勝利(GPT-4o は僅差の2位)。異なるモデルは異なるタスクで優れており、使用ケース次第でトレードオフが存在することを示している。

コピー&ペーストのワークフローにはうんざりしてしまいました。

よくあるパターンですよね:ChatGPT でプロンプトを書き、結果をスクリーンショットし、Claude 用に新しいタブを開き、同じプロンプトを貼り付け、もう一度スクリーンショットを撮り、Gemini でも同じことを繰り返します。3つのモデルを横断してこれを実行しているうちに、元々何を達成しようとしていたのかを忘れてしまいます。

そこで、同じプロンプトを複数の LLM に同時に送信し、結果を並べて表示する OneAIWorld を使った構造化比較を開始しました。GPT-4o、Claude 3、Gemini 1.5 Pro の50件のプロンプトを、5つの
カテゴリに分けて実行しました。以下が私が実際に見つけたことです。

## 私がテストしたカテゴリ

  1. コード生成 — 関数を作成、バグを修正、このスニペットを説明
  2. 構造化出力 — JSON を生成、表を作成、レポートを整形
  3. クリエイティブライティング — 物語の出だし、製品説明、メール文案
  4. 推論/論理 — 文章題、複数ステップの指示、エッジケース
  5. 要約 — 長い記事を要点へ圧縮

## コード生成

勝者: GPT-4o(ただし僅差)

GPT-4o は、よりクリーンで直ちに実行可能なコードとより良いインラインコメントを提供しました。Claude は僅差で2位でしたが、過剰説明の傾向があり、関数を求めるとコードブロックの前に3段落の文脈が返ってくることがありました。

Gemini はエッジケースで最も苦戦しました。null 入力を優雅に処理するよう求めるプロンプトで、undefined で例外を投げるコードを生成しつつ null を処理すると主張しました。GPT-4o と Claude の両方がこの点を検出しました。

驚きの一つ:Claude は既存コードの説明が顕著に優れていました。混乱するスニペットを貼り付けて「これは何をしますか?」と尋ねると、Claude の説明は他の2つよりも正確で、体系立てて分かりやすかったです。

## 構造化出力

勝者: GPT-4o

信頼性の高い JSON が必要なものを作っている場合、GPT-4o が最も一貫しています。ネストされた構造でも、スキーマの指示を正確に従いました。

Claude は時々 JSON ブロックの前に本文を追加してしまい("Here\'s the data you requested:")取り除かないとパーサーが壊れることがあります。Gemini は複雑な構造で時折、壊れた JSON を返しました。

## クリエイティブライティング

勝者: Claude

この勝負は接戦ではありませんでした。Claude の創作的な出力は、リズムが良く、自然なペースで、生成されたコピーが一般的に感じられる“AI調”の特徴が少なく、GPT-4o は有能なコピーを生み出しますが、それはコピーとして読まれます。Claude はより人が書いたように読めます。

特に製品説明とメールの件名については、 Claude がかなりの差をつけて抜きん出ていました。

## 推論と論理

勝者: Claude (GPT-4o が僅差の2位)

Mul