概要: 科学と工学の最も重要な問題の多くは逆問題です。望ましい結果が与えられたとき、それを達成する設計を見つけます。候補が仕様を満たすかを評価することはしばしば日常的です。結合エネルギーを計算し、反応収率をシミュレートし、薬物動態プロファイルを予測します。しかし、それらのターゲットを満たす入力の組合せ設計空間を探索することは本質的に難しいです。SciDesignBenchを導入します。これは、14の科学分野と5つの設定にまたがる520のシミュレータ基づくタスクのベンチマークで、単発設計、短期的な視野のフィードバック、長期的な改良、シード設計の最適化を含みます。10ドメインの共通コアサブセットでは、最良のゼロショットモデルの成功率はわずか29.0%にとどまり、パース率は大幅に高いにも関わらずです。シミュレータのフィードバックは役立ちますが、指標は展望によって変わります。1ターンのデノーボ設計ではSonnet 4.5が最も強力であり、20ターンのシミュレータ基づく改良の後にはOpus 4.6が最も強力です。開始シード設計を提供するとリーダーボードは再び入れ替わり、制約された修正は無制約のデノーボ設計とは本質的に異なる能力を必要とすることを示しています。次に、シミュレーターフィードバック訓練レシピであるRLSFを紹介します。RLSFで調整された8Bモデルは、3つのドメインにわたり1ターンの成功率を8〜17パーセンテージポイント向上させます。これらの結果は、シミュレータに基づく逆設計を、科学的推論のベンチマークとしてだけでなく、高価なテスト時の計算をモデル重みに分散する実用的な基盤として位置づけます。
SciDesignBench: 科学的逆設計のための言語モデルのベンチマークと改善
arXiv cs.LG / 2026/3/16
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- SciDesignBench は、望ましい成果から入力へ至る逆設計を評価するため、14の科学分野と5つの設定にまたがる520のシミュレータに基づくタスクのベンチマークとして導入される。
- 10ドメインの共通コア・サブセットでは、最良のゼロショットモデルが29.0%の成功率を達成し、より高いパース率を示す。シミュレータのフィードバックは性能に影響を与え、リーダーボードはホライズンに依存する(例:Sonnet 4.5が1ターンのデノボ設計をリードし、Opus 4.6が20ターン後に首位に立つ)。
- 開始時のシード設計を提供するとリーダーボードが再編成され、制約のある修正は無制約のデノボ生成とは異なる能力を要求することを示している。
- シミュレータ・フィードバック訓練レシピRLSFの提案。RLSFによって調整された8Bモデルは3ドメインで単一ターンの成功率を8–17ポイント引き上げ、テスト時の計算量をモデル重みに還元できる可能性を示し、シミュレータに基づく逆設計を科学的ベンチマークと実践的ツールの両方として確立する道を開く。



