AI Navigate

機械は制度的痕跡から科学的嗜好を獲得する

arXiv cs.AI / 2026/3/18

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 新しい研究は、ジャーナル刊行決定を基に言語モデルを微調整することで、どのアイデアが追求に値するかを評価する判断力を示すようになることを示しており、これは最先端モデルや未適応の人間専門家には捉えられていない能力である。
  • 未知データを用いたベンチマークで、マネジメント分野の研究提案を4段階の品質水準で評価したところ、フロンティアモデルの平均正確度は31%、編集者のパネルは多数決で42%の正解率に達した。
  • 多年分の刊行記録で訓練された微調整済みモデルは、最先端モデルと専門家パネルを上回り、最良の単一モデルは59%の正確さと校正済みの信頼度を達成し、最も高い信頼度の予測では100%の正確さを含む。
  • この機序は訓練されていないペアワイズ比較および1文要約へ転移し、経済学の刊行記録で訓練された場合、約70%の正確さに達する。
  • この知見は、品質を容易に検証できない分野にわたる科学的成果の増大を効率的にトリアージするスケーラブルな方法を示唆しており、制度的記録に科学的嗜好を効果的に蓄積する。

告知タイプ: 新規
要旨:人工知能は、タンパク質折り畳みから数学オリンピックの問題まで、検証可能な解答を要する課題において、人間の性能と同等かそれを超えることがある。
しかし科学の進歩を最も支配する能力は推論ではなく嗜好:検証されていないアイデアのうち、どれを追求すべきかを判断する能力であり、編集者や資金提供者によって日々行使されるが、表現・教育・自動化にはまだ到達していない。
ここでは、ジャーナル刊行決定に対する言語モデルの微調整が、最先端モデルと人間の専門知識の双方には到達できない評価判断を回復させることを示す。
マネジメント分野の研究提案を4つの品質階層にまたがるホールドアウトベンチマークを用いると、主要な独自アーキテクチャとオープンアーキテクチャを跨ぐ11の最先端モデルは、偶然の水準をほとんど超えず、平均正確度は31%にとどまることが分かった。
ジャーナル編集者と編集委員会のメンバーのパネルは、多数決により42%に達する。
年数分の刊行記録で微調整したモデルは、それぞれ全ての最先端モデルと専門家パネルを上回り、最高の単一モデルは59%を達成する。
これらのモデルは較正された自信を示し、最も自信度の高い予測で100%の正確性に達し、この評価信号を未訓練の対比較と1文の要約へと転用する。
この機構は一般化可能で、経済学の刊行記録で訓練されたモデルは70%の正確度を達成する。
科学的嗜好はAIの到達範囲から欠けていたのではなく、制度的記録に蓄積されており、取り出されるのを待っていた。
これらの結果は、正式な検証に抵抗する分野を横断して拡大する科学生産の量を分類するための、スケーラブルな仕組みを提供する。

返却形式: {"translated": "翻訳されたHTML"}