コピー&ペーストのワークフローにはうんざりしてしまいました。
よくあるパターンですよね:ChatGPT でプロンプトを書き、結果をスクリーンショットし、Claude 用に新しいタブを開き、同じプロンプトを貼り付け、もう一度スクリーンショットを撮り、Gemini でも同じことを繰り返します。3つのモデルを横断してこれを実行しているうちに、元々何を達成しようとしていたのかを忘れてしまいます。
そこで、同じプロンプトを複数の LLM に同時に送信し、結果を並べて表示する OneAIWorld を使った構造化比較を開始しました。GPT-4o、Claude 3、Gemini 1.5 Pro の50件のプロンプトを、5つの
カテゴリに分けて実行しました。以下が私が実際に見つけたことです。
## 私がテストしたカテゴリ
- コード生成 — 関数を作成、バグを修正、このスニペットを説明
- 構造化出力 — JSON を生成、表を作成、レポートを整形
- クリエイティブライティング — 物語の出だし、製品説明、メール文案
- 推論/論理 — 文章題、複数ステップの指示、エッジケース
- 要約 — 長い記事を要点へ圧縮
## コード生成
勝者: GPT-4o(ただし僅差)
GPT-4o は、よりクリーンで直ちに実行可能なコードとより良いインラインコメントを提供しました。Claude は僅差で2位でしたが、過剰説明の傾向があり、関数を求めるとコードブロックの前に3段落の文脈が返ってくることがありました。
Gemini はエッジケースで最も苦戦しました。null 入力を優雅に処理するよう求めるプロンプトで、undefined で例外を投げるコードを生成しつつ null を処理すると主張しました。GPT-4o と Claude の両方がこの点を検出しました。
驚きの一つ:Claude は既存コードの説明が顕著に優れていました。混乱するスニペットを貼り付けて「これは何をしますか?」と尋ねると、Claude の説明は他の2つよりも正確で、体系立てて分かりやすかったです。
## 構造化出力
勝者: GPT-4o
信頼性の高い JSON が必要なものを作っている場合、GPT-4o が最も一貫しています。ネストされた構造でも、スキーマの指示を正確に従いました。
Claude は時々 JSON ブロックの前に本文を追加してしまい("Here\'s the data you requested:")取り除かないとパーサーが壊れることがあります。Gemini は複雑な構造で時折、壊れた JSON を返しました。
## クリエイティブライティング
勝者: Claude
この勝負は接戦ではありませんでした。Claude の創作的な出力は、リズムが良く、自然なペースで、生成されたコピーが一般的に感じられる“AI調”の特徴が少なく、GPT-4o は有能なコピーを生み出しますが、それはコピーとして読まれます。Claude はより人が書いたように読めます。
特に製品説明とメールの件名については、 Claude がかなりの差をつけて抜きん出ていました。
## 推論と論理
勝者: Claude (GPT-4o が僅差の2位)
Mul



