Continuous Knowledge Metabolism: 進化する文献から科学的仮説を生成する

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、スライディングウィンドウを用いて時間とともに科学的知識がどのように進化するかを追跡し、仮説生成のために構造化された知識ベースを漸進的に更新する枠組み「Continuous Knowledge Metabolism（CKM）」を提案する。
効率的な派生版である「CKM-Lite」では、バッチ処理と比較してトークンコストを92%削減しつつ、予測的ヒット率が+2.8%（p=0.006）、仮説の産出数が+3.6（p<0.001）、最良一致アラインメントが+0.43（p<0.001）と向上することを示す。
著者らはまた、「CKM-Full」を提示しており、新たな発見が（新規/確認/矛盾のいずれかとして）どのようにラベリングされるかを計測し、知識変化のシグナルを検出し、文献の進化の全軌跡に基づいて仮説生成を条件付ける。
50のトピックに対して892の仮説を生成した実験では、一般に漸進的処理がバッチ処理に勝る一方で、変化を意識した計測はLLMが判断する新規性を高めるが、予測的カバレッジを低下させ得ることが示され、品質–カバレッジ間のトレードオフが示唆される。
追加分析では、仮説の成功は分野の軌跡の安定性に依存すること、また「知識の収束（convergence）」シグナルが「矛盾（contradiction）」シグナルよりもはるかに予測力が高く（ヒット率が約5倍）、文献ベースの予測および評価における重要な境界条件が示される。

Abstract

科学的仮説生成には、「現時点で何が知られているか」だけでなく、知識がどのように進化していくかを追跡することが必要です。私たちは、スライディング時間窓を用いて科学文献を処理し、新たな発見が到来するたびに構造化された知識ベースを段階的に更新する枠組み、Continuous Knowledge Metabolism（CKM）を提案します。さらに、効率的な変種であるCKM-Liteは、増分蓄積によって強い予測カバレッジを実現し、バッチ処理を命中率で（+2.8%、p=0.006）、仮説生成の成果で（+3.6、p<0.001）、最良一致の整合で（+0.43、p<0.001）上回りつつ、トークンコストを92%削減します。これらの差を生み出す要因を理解するために、各新規の発見を「新規（novel）」「確認（confirming）」「矛盾（contradicting）」に分類し、知識変化のシグナルを検出し、仮説生成を知識の進化の全軌跡に基づいて条件付けする、計測（instrumented）版のCKM-Fullを開発します。CKM-Fullによって生成された892の仮説を50の研究トピックにわたって分析し、他の変種との並行実行も併せて行ったうえで、次の4つの経験的観察を報告します：(1) 増分処理は、予測および効率の指標においてバッチのベースラインを上回ります；(2) 変化を意識した計測は、LLMによる新規性の評価が高いこと（Cohen's d=3.46）に関連する一方で、予測カバレッジは低く、品質とカバレッジのトレードオフが示唆されます；(3) 分野の軌跡の安定性は仮説の成功と関連しており（r=-0.28、p=0.051）、文献ベースの予測には境界条件があることを示唆します；(4) 知識収束のシグナルは、矛盾のシグナルよりも約5倍高い命中率と結びついており、変化タイプ間で予測可能性が異なることを示しています。これらの結果は、生成される仮説の性質が、文献をどれだけ処理するかだけでなく、どのように処理するかにもよって形作られることを示唆しています。さらに、それらは、評価枠組みが単一の指標を最適化するのではなく、品質とカバレッジのトレードオフを考慮すべきであることを示しています。