インコンテキスト例はLLMにおける科学的知識の想起を抑制する

arXiv cs.AI / 2026/5/1

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本研究では、インコンテキスト例を追加すると、LLMが潜在的な構造を復元する課題で科学的知識を想起して利用する能力が抑制され得ることが示された。
  • そのインコンテキスト例が、モデルの事前学習で想定される同一の基礎式から生成されている場合でも、モデルは知識に基づく導出ではなく経験的なパターン当てに計算を振り向ける。
  • 5つの科学分野・60のタスク、6,000回の試行、4つのモデルにわたって、「知識の置換(displacement)」が起きる方向性は一貫している。
  • 精度への影響は、置換される戦略(知識ベース)と置き換わる戦略(例ベース)の相対的な優劣によって変わり、精度低下・不変・改善に見える場合まであり得る。
  • 科学的タスクでLLMを運用する実務者にとっての教訓として、インコンテキスト例は補強を意図していても、逆に知識を損なう可能性があることが示唆される。

Abstract

科学的推論は、直接観測できるものにとどまることはめったにありません。多くの場合、データから隠れた構造を見抜くことが必要になります。化学における反応定数の推定から、経済学における需要弾力性の推論まで、この潜在構造の回復こそが、科学的推論をカーブフィッティングと区別するものです。大規模言語モデル(LLM)は、しばしば関連する科学的公式を想起し適用することができますが、本研究では、その能力が驚くほど簡単に抑制されうることを示します。同一の公式によって生成されたものであっても、インコンテキスト例を追加すると、モデルが事前学習された領域知識に依存する度合いが低下することを示します。知識に基づく導出を強めるのではなく、例は計算を経験的なパターン当てはめへとシフトさせます。私たちは、5つの科学分野にまたがる60の潜在構造回復タスク、6,000回の試行、4つのモデルにわたって、この知識の置換を記録します。この置換は分野横断で一貫していますが、その精度への影響は、置き換えられた戦略に対して、どのように置換後の戦略が比較されるかに依存します。同じシフトでも、精度を下げることも、変わらないままにすることも、あるいは改善したように見せることもあり得ます。いずれの場合も、しかしながらモデルは知識に基づく推論から離れていきます。科学タスクでLLMを導入しようとする実務者へのメッセージは注意喚起です。インコンテキスト例は、支えることを意図された知識を強化するのではなく、むしろそれを置換してしまう可能性があります。