評価駆動型スケーリングによる科学的発見

arXiv cs.LG / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、検証器・シミュレータ・タスク固有のスコア関数によって候補解へのフィードバックを得る、科学的発見における評価駆動型の試行錯誤ループをどのようにスケールするかを扱います。
提案手法はSimpleTES（Simple Test-time Evaluation-driven Scaling）で、並列探索、フィードバックに基づく洗練、ローカルな選択を戦略的に組み合わせ、原理的に性能を高める枠組みを示します。
gpt-ossモデルを用い、6領域・21の科学問題にわたって評価すると、SimpleTESは最先端モデルのベースラインおよび高度な最適化パイプラインの双方を一貫して上回り、最先端解を見つけます。
具体的な成果として、LASSOの処理を2倍超高速化、量子回路ルーティング方策でゲートオーバーヘッドを24.5%削減、そして既知の最良結果を上回る新しいErdősの最小オーバーラップ構成を発見したことが報告されています。
さらにSimpleTESは軌跡レベルの履歴を生成し、フィードバック駆動の学習を自然に教師できることが示されており、既知タスクで効率が向上するだけでなく、事後学習により未見タスクにも一般化してベースモデルが見つけられなかった解を発見します。

要旨: 言語モデルは、科学的発見において仮説を生成し、候補となる解決策を提案し、システムを実装し、そしてそれらを反復的に洗練するために、ますます用いられるようになってきています。こうした試行錯誤のループの中核にあるのが評価です。すなわち、検証器、シミュレータ、あるいはタスク固有のスコア関数を通じて、候補となる解決策に対するフィードバックを得る過程です。先行研究は評価の重要性を強調してきたものの、評価駆動型の発見ループを、科学的発見の限界を押し広げるために、原理的かつ効果的な方法でどのようにスケールさせられるのか、という問題は明示的には定式化されていません。本論文はこの課題に取り組みます。私たちは、単純なテスト時評価駆動スケーリング（SimpleTES）を導入します。これは、並列探索、フィードバック駆動の洗練、局所選択を戦略的に組み合わせる一般的な枠組みであり、適切な次元に沿って評価駆動型の発見ループをスケールすることで解放される大きな利得を示します。6つの領域にまたがる21の科学問題において、SimpleTESはgpt-ossモデルを用いて最先端の解を発見し、フロンティアモデルのベースラインと洗練された最適化パイプラインの両方を一貫して上回ります。特に、広く使われているLASSOアルゴリズムを2倍超に高速化し、ゲートオーバーヘッドを24.5%削減する量子回路ルーティング方策を設計し、これまでで最良とされてきた結果を上回る新しいErdosの最小重なり構成を発見しました。新しい発見に加えて、SimpleTESは軌跡レベルの履歴を生成し、これはフィードバック駆動型の学習を自然に教師付けします。成功した軌跡で事後学習すると、モデルは見えている問題の効率を改善するだけでなく、見えていない問題にも一般化し、基礎モデルが見出せない解を発見します。以上より、私たちの結果は、LLM駆動の科学的発見を前進させるための中心的な軸として、効果的な評価駆動ループのスケーリングを確立し、この利得を実現するためのシンプルで実用的な枠組みを提供します。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/22Dailyインサイトを見る →

効果検証入門③ T-Learnerで介入効果の分布を見てみる

Qiita

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ITmedia AI+

ChatGPTが『依存』だとユーザーを疑う件について

note

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

note

【note更新、嫌になってませんか】告知ゼロで19,860円の記事が累計3本売れた夜に、私が見ている世界規模の油田の話。あなたは今、石油を掘っている自覚はありますか? #生成AI #AI活用 #noteで読めるマンガ #ChatGPTImages2.0 #ChatGPT #Claude #Gemini #Kindle出版 #nanobanana #note #情報発信 #ビジネス #noteの書き方 #副業 #マーケティング

note

評価駆動型スケーリングによる科学的発見

要点

💡 この記事が使われたインサイト

関連記事

効果検証入門③ T-Learnerで介入効果の分布を見てみる

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう

ChatGPTが『依存』だとユーザーを疑う件について

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

効果検証入門③ T-Learnerで介入効果の分布を見てみる

「DeepSeek-V4」登場 オープンながら“世界トップのクローズドモデルに匹敵”うたう

ChatGPTが『依存』だとユーザーを疑う件について

【AI×マインドフルネス】SUNO AIで挑む「朝の活力」4分間瞑想ガイド制作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

「DeepSeek-V4」登場　オープンながら“世界トップのクローズドモデルに匹敵”うたう