OpenAI が GPT-5.4 をリリースしました — これは単なる追加更新ではありません。2026年3月5日に公開され、このモデルは最先端のコーディング機能、ネイティブなコンピューター使用、1Mトークンのコンテキストウィンドウを1つのパッケージとして結合し、プロフェッショナルな作業を対象としています。アプリを作成したり、ワークフローを自動化したり、AI搭載ビジネスを運営している場合には、何が変わったのか、そしてなぜ重要かが以下に示されています。
TL;DR — GPT-5.4 の新機能
| 機能 | GPT-5.4 | GPT-5.2(前モデル) |
|---|---|---|
| コンピューター使用 | ネイティブ — デスクトップ、ブラウザ、アプリを操作 | 利用不可 |
| コンテキスト・ウィンドウ | 最大1Mトークン | 128K–256K |
| ツール検索 | ツール集約ワークフローでトークンを47%削減 | すべてのツールを事前に読み込み |
| 知識作業(GDPval) | 83.0%(専門家と同等以上) | 70.9% |
| OSWorld(デスクトップ使用) | 75.0% — 人間のパフォーマンス(72.4%)を上回る | 47.3% |
| コーディング(SWE-Bench Pro) | 57.7% | 55.6% |
| API 価格(入力) | $2.50/M トークン | $1.75/M トークン |
| API 価格(出力) | $15/M トークン | $14/M トークン |
1. ネイティブ・コンピューター使用 — 主要機能
GPT-5.4 は OpenAI の初の汎用モデルで、ネイティブなコンピューター使用機能を搭載しています。これはねじ込まれた機能ではなく、モデル自体に組み込まれています。
実際には何を意味するのでしょうか?GPT-5.4 は以下が可能です:
- スクリーンショットとキーボード/マウス操作を通じてデスクトップ環境をナビゲートする
- Playwright コードを書いてブラウザワークフローを自動化する
- 画面上に表示されている内容に応じてマウスとキーボードのコマンドを発行する
- 異なるアプリケーション間での多段階ワークフローを完了させる
ベンチマークの結果がその物語を語っています。OSWorld-Verified はモデルがデスクトップ環境をナビゲートする能力を測定する指標であり、GPT-5.4 は 75.0% に達し、人間のパフォーマンス 72.4% を上回り、GPT-5.2 の 47.3% を圧倒します。これは1世代での相対的な改善として 59% の向上です。
2. ツール検索 — ついに効率的なツール・エコシステム
GPT-5.4 は ツール検索 を導入します。すべてのツール定義をコンテキストに一括で読み込む代わりに、モデルには軽量なリストが渡され、必要に応じて特定のツール定義だけを参照します。
Scale の MCP Atlas ベンチマークの 250 タスクを、すべての 36 MCP サーバーを有効化してテストしたところ、ツール検索は 総トークン使用量を 47%削減 しつつ、同じ精度を達成しました。
3. 1M トークンのコンテキスト窓
GPT-5.4 は最大 1M トークンのコンテキスト をサポートします。