Benchmark for Research Taste
「研究の目利き力」を、
初めて数字で測る。
解を解く力は測りやすい。ですが、"良い研究テーマを見抜く力" は、これまで定量化されてきませんでした。OpenAI が発表した新ベンチマーク GeneBench-Pro は、その空白に踏み込み——そして GPT-5.6 Sol でさえ、30% を割ります。
The Blind Spot
「解く力」は測れても、
「見抜く力」は測れなかった
数学の証明、コードの生成、論理パズルの解答——これらのベンチマークは、モデルの "解く力" を細かく測ってきました。しかし研究の現場でもっとも希少なのは、実は解く力ではなく、"良いテーマを見抜き、実験を組む" 力です。この判断力を評価する軸は、ほとんどの主要ベンチマークが持っていませんでした。
結果、モデルの数字は年々良くなる一方、"AI に研究の企画段階まで任せられるか"という、研究組織にとって一番知りたい問いには、明確な答えが返ってきませんでした。ここに OpenAI 自身がメスを入れた——というのが今回の話です。
GeneBench-Pro
テーマの良し悪しを、
採点する
GeneBench-Pro は "研究テーマの良し悪し" と "実験設計の妥当性" を測ろうとする、新しい種類のベンチです。
GeneBench-Pro が公開され、GPT-5.6 Sol でも正解率が 30% を下回った——というのが、この発表のいちばん人目を引く数字です。もちろん出題そのものが極めて難しく作られてはいますが、「研究の目利き力」領域ではフロンティアモデルもまだ半人前、という認識をはっきり数字で示したことに意味があります。
ベンチは、複数の研究テーマ案から「望みのあるもの」を選ばせたり、既存の実験設計から穴を指摘させたりする形式で構成されています。単なる QA より一段抽象的で、成功か失敗かの正解ラベルが、実際の研究アウトカムに寄せて作られている点が新しい設計です。
The Numbers
「30% ライン」の
意味するところ
3割を下回るスコアは、単純に "低い" というより、"AI に研究企画をアウトソースできる段階ではない" ことを示唆します。研究組織にとっては、いい意味でも悪い意味でも、判断材料としてはっきりします。
Who Feels It
効くのは
研究側の意思決定
R&D マネージャー
AI に研究の企画・優先度決定まで任せる導入計画は、いったん保留する根拠が揃いました。
研究者・PhD 学生
先行文献レビューには使えるが、「テーマ選定の相棒」まで踏み込むには早い——という現実的なラインが引けます。
個人ユーザー
日常業務にはほぼ影響しません。ただし "AI に企画を丸投げする空気" にブレーキがかかる、という間接効果はあります。
The Frontier
ロードマップの
目盛りが変わる
ベンチ側の面白い点は、これが自社モデルの「まだ足りない領域」をわざわざ可視化した動き、ということです。フロンティアラボが自ら "うちのモデルは 30% に届かない" と公言するのは、営業戦略的にはむしろ不利にも見えます。しかし、ロードマップの目盛りを外部にも共有することが、業界の議論の質を上げる方向で効くはずです。
これは「AI に何を任せて、何を任せないか」を分ける新しい基準になります。GeneBench-Pro のようなベンチが増えるほど、"できないこと" の輪郭がはっきりし、AI 活用の議論が地に足の着いたものに寄っていきます。