OpenAIは、ChatGPTのデフォルトモデルを新しいGPT-5.5 Instantに更新し、あわせて、レスポンスを形作ったのはどの文脈だったのかをようやく示せる新しいメモリ機能も追加しました — 少なくともその一部は。
この制限は、モデルが既存の監査システムやエージェントのログと競合しうる、2つ目で不完全な「メモリの可観測性」レイヤーを作り始めていることを示唆しています。
GPT-5.5 InstantはデフォルトのChatGPTモデルとして、GPT-5.3 Instantに取って代わり、同社の新しいフラッグシップGPT-5.5 LLMのバージョンです。5.3よりも、より信頼性が高く、より正確で、より賢いはずだとされています。
しかし、プロジェクトに取り組む企業を後押ししうるのは、プラットフォーム上のすべてのモデルで有効化される「メモリソース」の導入です。
「レスポンスがパーソナライズされると、保存されたメモリや過去のチャットなど、使用された文脈を確認でき、何かが古くなったり、もはや関連性がなくなったりしている場合は削除または修正できます」とOpenAIはブログ記事で述べました。
ユーザーがChatGPTに何かを尋ねると、ユーザーはレスポンスの下部にあるソースボタンをタップして、モデルが答えを見つけるために参照したファイルや過去チャットが何かを確認できます。さらに、ユーザーはモデルが引用できるソースについても完全に制御でき、会話を他者に送信した場合にはこれらのソースは共有されません。
同社は、メモリソースによってモデルのレスポンスをより簡単にパーソナライズできるはずだとしています。それでもOpenAIは、モデルは「答えを形作ったあらゆる要因を示せない可能性がある」と認め、この機能を時間とともにより包括的にしていくと約束しました。
つまり、メモリソースはChatGPTの回答における何らかの可観測性のようなものを提供しますが、現時点では完全な監査可能性はありません。
競合するメモリシステム
企業には、モデルやエージェントによってメモリと文脈の問題の一部を解決するためのシステムがすでにあります。モデルは、検索拡張生成(RAG)パイプラインを通じて文脈にアクセスでき、エージェントがベクターデータベースから取得したものはログに記録されます。そしてエージェントの状態は、メモリレイヤーに保存されます。これらはすべて、通常は、組み込みの可観測性を備えたオーケストレーションまたは管理レイヤーで、アプリケーションログとして追跡されます。理想的には、これによりチームは失敗をスタック全体にさかのぼって追跡できます。
現行システムは不完全です。失敗の起点を追跡しにくいこともありますが、少なくとも内部的には一貫しています。ChatGPTを使う企業、つまりデフォルトのGPT-5.5 Instantであれ、あるいは自社の選んだモデルであれ、その状況はもはや同じではありません。
モデルは、既存の検索ログとは完全に別のメモリソースとして自前のバージョンを提示します。要するに「モデルが報告する文脈」です。これらが信頼性高く突合できない場合に問題が生じます。そして、メモリソースはユーザーに全体像の一部しか提供しません — ChatGPTがメモリソースの引用に設けている上限がどこにあるのかも不明なため — GPT-5.5 Instantが参照したと述べた内容と、実際の本番環境で行ったことを一致させるのはさらに難しくなります。
この状況は、新しい失敗パターンを生みます。競合する文脈ログです。何かがおかしいように見えると、企業が対処しなければならない不整合が発生しうるのです。
HiddenLayerの最高信頼・セキュリティ責任者(chief trust and security officer)であるMalcolm Harkinsは、VentureBeatに対し、メモリソースは「ある程度の透明性を提供するうえで現実的な中間地点のように見える」と述べつつも、「その価値を見抜くのはまだ簡単ではない」と語りました。
「企業にとっては、方向性としては役立つものの、それ単体では不十分です」とHarkinsは述べました。「真の価値は、それがセキュリティ、ガバナンス、アクセス制御、監査システムとどう統合されるかにかかっています。」
より高い能力を持つデフォルトモデル
ただし、GPT-5.5 Instantはメモリを扱い、OpenAIはGPT-5.3 Instantより改善していると呼んでいます。
内部評価では、GPT-5.5 Instantは、従来のデフォルトモデルよりも、幻覚(ハルシネーション)による虚偽の主張を52.5%少なく返したことが示されました。特に医療、法律、金融といったリスクの高い領域で顕著でした。難しい会話では、不正確な主張が37.3%減少したとしています。同社は、モデルが写真の分析や画像アップロードを改善し、STEMの質問に答えられるようになり、さらに自分の知識ベースを参照すべきか、ウェブ検索を使うべきかを判断できるようになったとも述べています。
独立したモデル評価者ArenaのAIケイパビリティ担当であるPeter Gostevは、メールでVentureBeatに対し、GPT-5.5 Instantで注目すべき重要な結果は、全体のテキスト順位付けにおけるパフォーマンスだと説明しました。というのも、前身モデルが強い結果を示していなかったからです。
「Arenaで最も高いパフォーマンスを持つOpenAIチャットモデルは、GPT-4o以降、GPT-5.2-Chatで、リリースから数か月経ってもOverall Text Arenaで12位に入っています」とGostevは述べています。注目すべき点として、ユーザーはより推論力の高いGPT-5.2-Highバリアントよりもそれを好んでおり、同バリアントは現在Arenaで52位にランクされています。これに対し、「ChatGPTの前デフォルトモデルであるGPT-5.3-Chatは競争力が大きく劣り、全体で44位で、GPT-5.2-Chatより32順位下でした」とのことです。
企業がメモリソースでやるべきこと
ChatGPTを一部の業務に利用している組織は、自社スタックにおいてメモリがどのように機能するのかを形式化する必要があります。メモリソースはGPT-5.5 Instantに限定されません。ChatGPTプラットフォーム上のすべてのモデルで有効化されています。
競合するメモリソースという問題に対処するには、企業はメモリ管理を監査しなければなりません。モデルが報告する文脈は、これらのログと重複したり矛盾したりする可能性があるため、「唯一の正しい情報源(single source of truth)」を明確に定義するのが最善です。失敗が起きた場合、管理者はどのログを信じるべきかを把握できます。
また、ユーザーにメモリソースを公開するかどうかを決めるのも良い考えです。ChatGPTは、リクエストを完了するために使用したチャットやファイルを、限られた数だけ表示します。より多くの透明性を求めるユーザーは、それを信頼できると感じるかもしれません。
最終的に、企業がメモリソースについて覚えておくべき最重要ポイントは、モデルがその文脈として報告する内容は監査のための全体像ではない、ということです。それは可観測性の一種ではありますが、完全な精査には耐えられません。




