
新しいベンチマークでは、GPT-5.4やClaude Opus 4.6のようなトップモデルに、日々の業務としてジュニアの投資銀行員が扱う種類のタスクを実行させている。AIの出力は1つとして、クライアントに送信できる状態だと評価されなかった。結果があまりにも不正確か、あるいははっきりと間違っているからだ。それでも、半数を超える銀行員は、その出力を出発点として使うだろうと答えている。
この記事は500人の投資銀行員がAIの出力をレビューし、クライアント納品に適したものは1つもないと判明としてThe Decoderに最初に掲載された。




