| 私たちはYC-Benchを構築しました。ここではLLMが、1年間(およそ数百ターン)にわたってシミュレートされたスタートアップのCEOを務めます。従業員を管理し、契約を選び、給与計算を処理し、さらに、あなたがタスクを引き受けた後に顧客の約35%がこっそり「要求する作業量」を水増ししてくるような市場でも生き残ります。フィードバックは遅延し、しかもまばらで、手取り足取りの支援はありません。 12モデル、各3つのシードです。リーダーボードはこちら:
GLM-5は、私たちが何度も立ち返ってしまう発見です。生の性能ではOpusから5%以内に収まり、実行コストははるかに小さくて済みます。プロダクションのエージェント型パイプラインを作っている人にとって、このコスト効率のカーブは現実のものです。そしてKimi-K2.5は、次のモデルより2.5倍良い形で、APIドルあたりの売上(収益)ランキングを実際にトップにしています。 このベンチマークは、多くの評価(eval)が見落としがちな何かを明らかにします:遅延フィードバック下での長期ホライズンにおける一貫性です。意思決定が良かったのかをすぐに判断できないと、多くのモデルはループに陥り、今書いたばかりの戦略を放棄したり、すでに「ダメだ」と特定している顧客からのタスクを受け続けたりします。 成功の最も強い予測因子は、モデルのサイズやベンチマークスコアではありませんでした。持続的なスクラッチパッド(作業メモ)を使って、学んだことを記録していたかどうかでした。上位モデルは、1 runあたり約34回メモを書き直していました。下位モデルは、平均で0〜2件のエントリでした。 論文: https://arxiv.org/abs/2604.01212 お手元のモデルをいずれか実行してみてもいいですよ。ご質問があれば気軽に返信します! [link] [comments] |
12のLLMに、1年間運営するスタートアップを任せた。GLM-5は、Claude Opus 4.6にほぼ匹敵しつつ、費用は11分の1だった。
Reddit r/LocalLLaMA / 2026/4/4
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- この記事では、YC-Benchというベンチマークを紹介している。ここではLLMが約1年に相当する期間、数百ターンにわたってシミュレートされたスタートアップを運営し、従業員・契約・給与を管理する。さらに、遅延または疎なフィードバックに加え、採用(受諾)後に要求をつり上げる敵対的なクライアントが登場する。
- 12のLLMを3つのシードでそれぞれ評価したテストでは、GLM-5は最終的な平均資金でClaude Opus 4.6にほぼ匹敵した(約$1.21M vs. $1.27M)。一方で、1回あたりのコストはおよそ11分の1で済んだ(APIコスト $7.62 vs. $86)。
- ほとんどの他モデルは成績が劣り、複数が倒産した。これは、単なる見出しのベンチマークスコア以上に、長期的な計画能力と、不確実性下での頑健性が重要であることを示唆している。
- このベンチマークは、遅延フィードバックのもとでの長期的な整合性が、既存の評価では欠けていることが多いと強調している。多くのモデルがループに陥ったり、戦略を放棄したり、悪いタスクを受け続けたりする。
- 成功を左右する重要な予測因子は、学んだ内容を記録する永続的なスクラッチパッドをモデルが使用しているかどうかだった。上位のモデルは1回の実行あたりノートを書き換えを約34回行ったのに対し、下位のモデルはほとんど何も記録しなかった。



