ChatGPTのボイスモードはより弱いモデルだ

Simon Willison's Blog / 2026/4/11

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この投稿は、OpenAIのChatGPTボイスモードが、ユーザーの多くが想定しているよりも古い、より弱いモデルを使用していると主張している。根拠は、自己申告された知識カットオフが2024年4月であること(「GPT-4o era」)にある。
  • 無料/ボイスの提供ポイントと、より上位の提供内容との間に能力差があるという認識が示されている。より高度なモデルは、はるかに難しいタスクを処理できるとされている。
  • 著者は、このギャップを、対応する領域の違いや、フィードバック/報酬構造の違いに結び付けている。たとえば、強化学習において検証可能な報酬信号(ユニットテストなど)は、文章作成のような主観的タスクよりも使いやすいという。
  • 議論では、特定のプロダクト体験で使われるモデルが、人々がAI全体の能力をどう結論づけるかを左右する、というAndrej Karpathyの見解が取り上げられている。
  • 全体としての要点は、ユーザーがモデルにどのように、どこからアクセスするかが、期待や認識、そしてAI性能の評価に実質的な影響を与えうるという点にある。
スポンサー: Teleport — Teleport Beamsで数秒でインフラにエージェントを接続します。内蔵された身元確認。秘密情報ゼロ。 早期アクセスを取得

2026年4月10日

OpenAIの音声モードが、はるかに古く、はるかに弱いモデルで動いているのだという点は、多くの人にとって自明ではないと思います。話しかけられるAIが最も賢いAIであるべきだと感じますが、実際はそうではありません。

ChatGPTの音声モードに知識のカットオフ日を尋ねると、「2024年4月」と答えます。GPT-4oの時代のモデルです。

この考えは、このアンドレイ・カーパティのツイートに触発されました。人々がモデルを使うアクセス経路やドメインに基づいて、AI能力の理解に広がりつつあるギャップについて書いています:

[...] 同時に起きているのが本当にすごいところで、OpenAIの無料で、たぶん少し(?)孤立した(?)「高度な音声モード」は、あなたのInstagramのリールに出てくる最もバカげた質問でつまずく一方でありながら、OpenAIの最上位かつ有料のCodexモデルは、1時間かけてコードベース全体を首尾一貫する形に再構成したり、コンピュータシステムの脆弱性を見つけて悪用したりするために動き出します。

この部分は本当に機能していて、2つの特性のおかげで劇的に前進しました:

  1. これらのドメインには、検証可能な明示的な報酬関数が用意されているためです。つまり、(たとえばユニットテストが通るかどうかのように)強化学習の訓練に容易に適用できるのです。書くことのように、明確に良し悪しを判定するのがずっと難しいものとは対照的ですが、加えて
  2. b2bの文脈ではそれらの価値がはるかに高く、チームの最大の割合が、それらを改善することに集中しているからです。
2026年4月10日 2026年4月10日 午後3時56分に投稿

これはSimon Willisonによるメモで、2026年4月10日に投稿されました。

ai 1955 openai 405 andrej-karpathy 42 generative-ai 1735 chatgpt 193 llms 1702

月間ブリーフィング

$10/月で私をスポンサーして、今月の最も重要なLLMの動向を厳選したメールのダイジェストを受け取ってください。

もっと少ない手間で私があなたに送ります!

スポンサー&購読する