LLMによるインコンテキスト分子特性予測：記憶と知識の競合に関する盲検研究

arXiv cs.LG / 2026/3/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LLMが本当にインコンテキスト分子特性回帰を実行しているのか、それとも主に記憶（memorization）に依存しているのかを調べ、ベンチマーク汚染への懸念に対処する。
事前学習された知識の効果とインコンテキスト例の効果を切り分けるため、アクセス可能な情報量を段階的に減らしていく漸進的な盲検（blinded）実験を行う。
GPT-4.1、GPT-5、Gemini 2.5ファミリの9つのLLMバリアントを、3つのMoleculeNetデータセット（Delaney溶解度、リポフィリシティ、QM7原子化エネルギー）で評価する。
実験では、提供するコンテキスト量が性能や潜在的な記憶挙動にどう影響するかを検証するため、インコンテキストのサンプルサイズを制御した（0-shot、60-shot、1000-shot）設定を含める。
著者らは、情報アクセスを制御したもとでの分子特性予測を評価するための原理に基づいた評価フレームワークを提案し、事前学習とインコンテキスト学習の間に生じる競合を可視化する。

Abstract

大規模言語モデル（LLM）の能力は、自然言語処理を超えて分子特性の予測を含む科学的予測タスクへと拡張されてきました。しかし、広く用いられているベンチマークにおける学習データの汚染の可能性を踏まえると、インコンテキスト学習における有効性がどの程度確かなのかは依然として曖昧です。本論文では、LLMが分子特性に対して本質的なインコンテキスト回帰を行っているのか、それとも主として記憶（暗記）された値に依存しているのかを調査します。さらに、一連の段階的に情報を遮蔽する実験を通じて、事前学習済みの知識とインコンテキスト情報の相互作用を分析します。3系統（GPT-4.1、GPT-5、Gemini 2.5）の9種類のLLM変種を、3つのMoleculeNetデータセット（Delaneyの溶解度、Lipophilicity、QM7の原子化エネルギー）に対して評価し、利用可能な情報を反復的に減らしていく体系的な遮蔽手法を用います。加えて、情報アクセスの追加的な統制として、インコンテキストのサンプル数（0-shot、60-shot、1000-shot）を変化させます。本研究は、情報アクセスを制御した条件下での分子特性予測を評価するための、原理に基づく枠組みを提供し、暗記に関する懸念に対処するとともに、事前学習済みの知識とインコンテキスト情報との間に存在する衝突を明らかにします。