% 増加します(p = 0.003)。この改善が、プロンプトによる事前学習知識の想起ではなく、真にフィードバック駆動の学習に由来するのかを検証するため、ヒット/ミスのラベルを並べ替えるランダム・フィードバック制御を導入します。この制御下では性能向上が消失し、観測された改善がフィードバック信号の構造に依存していることが示されます(+13.0 ヒット、p = 0.003)。さらに、モデルの能力がフィードバックの利用にどのように影響するかを調べます。Claude Sonnet 4.5 から 4.6 へのアップグレードにより、遺伝子幻覚の発生率が {
a}〜33
%--45
% から {
a}〜3--9
% へと低下します。これにより、有意ではない ICL 効果(+0.8、p = 0.32)が、最良の ICL 戦略に対する大きく高度に有意な改善(+11.0、p=0.003$)へと変換されます。これらの結果は、有効な実験フィードバックからのインコンテキスト学習は、モデルが十分な能力閾値に到達した場合に限り初めて生じることを示唆しています。




