AIサイエンティスト・エージェントはラボ・イン・ザ・ループのフィードバックから学習できるのか？反復的摂動探索からの証拠

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、大規模言語モデル（LLM）ベースの科学エージェントが実験フィードバックから本当に学習できるのかを検証し、Cell Painting のハイスループット・スクリーニングにおける反復的摂動探索を、互いに独立して再現された800の実験で評価する。
フィードバックを用いて仮説を更新するLLMエージェントは、ゼロショットのベースラインを上回り、発見数を特徴（feature）ごとに平均で +53.4% 増加させる（p = 0.003）。
ヒット／ミスのラベルを入れ替えるランダム・フィードバック対照では、この性能向上が消失する。これは、単にプロンプトに基づく想起を促すだけでは不十分で、利益はフィードバック信号の構造に依存することを示す。
結果は、フィードバックからのインコンテキスト学習が有効に働くための能力の閾値を示している。Claude Sonnet 4.5 から 4.6 へのアップグレードにより遺伝子の幻覚（ハルシネーション）が大幅に減少し、従来は有意でなかった増加が大きく有意な改善へと変わる（+11.0, p = 0.003）。
全体として、本論文は、ラボ・イン・ザ・ループのフィードバックが科学実験における真正のインコンテキスト学習を促し得ることを示す証拠を提示するが、それはモデル能力が十分に高い場合に限られる。

% $増加します（$ p = 0.003 $）。この改善が、プロンプトによる事前学習知識の想起ではなく、真にフィードバック駆動の学習に由来するのかを検証するため、ヒット／ミスのラベルを並べ替えるランダム・フィードバック制御を導入します。この制御下では性能向上が消失し、観測された改善がフィードバック信号の構造に依存していることが示されます（$ +13.0 $ヒット、$ p = 0.003 $）。さらに、モデルの能力がフィードバックの利用にどのように影響するかを調べます。Claude Sonnet 4.5 から 4.6 へのアップグレードにより、遺伝子幻覚の発生率が$ {

a}〜33
% $--$ 45
% $から$ {

a}〜3 $--$ 9
% $へと低下します。これにより、有意ではない ICL 効果（$ +0.8 $、$ p = 0.32 $）が、最良の ICL 戦略に対する大きく高度に有意な改善（$ +11.0 $、$ p=0.003$）へと変換されます。これらの結果は、有効な実験フィードバックからのインコンテキスト学習は、モデルが十分な能力閾値に到達した場合に限り初めて生じることを示唆しています。