告知タイプ: 新規
要旨:人工知能は、タンパク質折り畳みから数学オリンピックの問題まで、検証可能な解答を要する課題において、人間の性能と同等かそれを超えることがある。
しかし科学の進歩を最も支配する能力は推論ではなく嗜好:検証されていないアイデアのうち、どれを追求すべきかを判断する能力であり、編集者や資金提供者によって日々行使されるが、表現・教育・自動化にはまだ到達していない。
ここでは、ジャーナル刊行決定に対する言語モデルの微調整が、最先端モデルと人間の専門知識の双方には到達できない評価判断を回復させることを示す。
マネジメント分野の研究提案を4つの品質階層にまたがるホールドアウトベンチマークを用いると、主要な独自アーキテクチャとオープンアーキテクチャを跨ぐ11の最先端モデルは、偶然の水準をほとんど超えず、平均正確度は31%にとどまることが分かった。
ジャーナル編集者と編集委員会のメンバーのパネルは、多数決により42%に達する。
年数分の刊行記録で微調整したモデルは、それぞれ全ての最先端モデルと専門家パネルを上回り、最高の単一モデルは59%を達成する。
これらのモデルは較正された自信を示し、最も自信度の高い予測で100%の正確性に達し、この評価信号を未訓練の対比較と1文の要約へと転用する。
この機構は一般化可能で、経済学の刊行記録で訓練されたモデルは70%の正確度を達成する。
科学的嗜好はAIの到達範囲から欠けていたのではなく、制度的記録に蓄積されており、取り出されるのを待っていた。
これらの結果は、正式な検証に抵抗する分野を横断して拡大する科学生産の量を分類するための、スケーラブルな仕組みを提供する。
返却形式: {"translated": "翻訳されたHTML"}